robots
缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合: <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”> <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”> <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”> 其中 <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>; <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”> 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如: <META NAME=”googlebot” CONTENT=”index,follow,noarchive”> 表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。 禁止抓取图片 User-agent: * Disallow: .jpg$ jpg可以代替为gif,png 等等... 禁止快照 要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 <HEAD> 部分: <meta name="robots" content="noarchive"> 要允许其他搜索引擎显示快照,但仅防止搜索引擎显示,请使用以下标记: <meta name="Baiduspider" content="noarchive"> |