管理资源吧

当前位置:管理资源吧首页>>>meiwen>>>c5>>>百科知识

如何正确的使用robots文件

  robots文件作为国际上通用的搜索引擎规则,可以规定搜索蜘蛛对网站可以爬行的范围,对某一些不必要的网页或者不想让搜索引擎蜘蛛发现的网页,可以在搜索引擎中列出,但是如果滥用robots文件,可能会导致网站大量网页甚至整个站点,都不被搜索引擎收录,如何正确的使用robots文件,就变的很重要。

  为什么要使用robots文件?

  搜索引擎蜘蛛在爬行网站的过程中,会首先在网站的根目录下,查找是否存在一个叫robots的纯文本文件,这个文件可以指定搜索引擎蜘蛛抓取的网页范围。

  robots文件放在哪里?

  对于普通网站来说,robots文件放在网站的根目录下即可,网站http://www.example。com/,那么,robots的访问地址就是http://www.example.com/robots.txt,观察下很多网站都存在robots文件,尤其是淘宝的 www.taobao.com/robots.txt,可以发现,它禁止了百度蜘蛛的爬行。

  robots文件中,各条指令的用法?

  一个空的robots文件,写法是这样的:

  User-agent: *

  Allow: /

  表示允许所有搜索引擎蜘蛛爬行

  如果网站还没有准备好,禁止蜘蛛爬行,则robots应该这样写:

  User-agent: *

  Disallow: /

  相对于小说网站来说,如果不希望蜘蛛爬行网站的管理员目录,可以在robots文件里,这样写:

  User-agent: *

  Disallow: /admin/

  还有一些robots文件中,可以禁止如何你想禁止的文件,比如:

  禁止蜘蛛爬行所有.jpg、.gif图片,robots写法为

  User-agent: Baiduspider

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  禁止爬行以file开头的文件夹中,所有的文件,robots写法为

  User-agent: Baiduspider

  Disallow: /file~/

  只允许蜘蛛爬行所有html文件

  User-agent: *

  Allow: /*.htm$

  Disallow: /

  其实,对于小说站来说,需要禁止的文件不多,对robots文件有一个大致的了解就可以了,需要注意的是,在还没有彻底理解robots的用法规则之前,不要随便使用,防止对网站带来不必要的影响。本文由提供帅老公是高中生全文阅读的Q猪文学站(http://www.qzread.com/)原创发布,转载请注明出处。

meiwen首页 更多meiwen