关于搜索引擎的禁止抓取机制
作者:佚名 时间:2014-05-21
当企业网站正在改版的时候,您可能希望搜索引擎不抓取您的网站。或许网站中的一些内容你不希望被搜索引擎抓取,比如说网站的后台页面,登录页面等。这时候,我们就需要学会如何运用搜索引擎禁止抓取文件——Robots文件或者是MATA Robots标签。
下面,联楷小编详细介绍一下什么是Robots文件和MATA Robots标签。
Robots文件
当搜索引擎抓取一个网站之前,首先会查看这个网站的根目录下有没有ROBOTS.TXT文件,这是一个文本文档。用来告诉搜索引擎这个网站里面的那些内容或者是一些特定的部分不想被搜索引擎抓取,因为很多是对排名没有意义的页面或者是一些牵涉到网站隐私的部分。如果没有发现这个文件或者是里面的内容为空,那么搜索引擎就认为这个网站的所有的东西自己都能够进行访问并抓取。
关键字段是USER-AGENT: 一般使用*代表所有的搜索引擎,或者也可以指定特定的搜索引擎的蜘蛛。Disallow: 后面写指定的禁止访问收录的文件目录,如果不写的话,就表示允许。需要注意的是如果有好几个目录,一定要分开写,每一个不想让收录的页面都使用一个 DISALLOW。
目前,绝大部分的搜索引擎都会遵守这个指令,不过被这个指令禁止搜录的页面的网址还能够以URL的形式在搜索的结果当中。要想让URL也完全的不出现,最好在页面上使用META ROBOTS标签。所以,建议各位在做网站建设的朋友们根据需要自己的需要来设置好,千万不能设置错了。
META ROBOTS标签
这个标签是网页META标签的一种,主要作用是让搜索引擎不要索引这个页面的内容.meta的名称是robots,内容是写不像被搜索跟踪的内容.比如下面:
NOINDEX:让搜索引擎不要索引这个页面;
NOFOLLOW:让搜索引擎不要追踪这个页面上的链接;
NOARCHIVE:让搜索引擎不显示网页快照。
这里需要重点强调的是,NOINDEX使用之后,页面还是能被抓取,不会索引这个页面,但搜索引擎还是能够追踪网页上的一些链接,也能够通过链接传递权重。