如何正确的使用robots文件

　　robots文件作为国际上通用的搜索引擎规则，可以规定搜索蜘蛛对网站可以爬行的范围，对某一些不必要的网页或者不想让搜索引擎蜘蛛发现的网页，可以在搜索引擎中列出，但是如果滥用robots文件，可能会导致网站大量网页甚至整个站点，都不被搜索引擎收录，如何正确的使用robots文件，就变的很重要。

　　为什么要使用robots文件?

　　搜索引擎蜘蛛在爬行网站的过程中，会首先在网站的根目录下，查找是否存在一个叫robots的纯文本文件，这个文件可以指定搜索引擎蜘蛛抓取的网页范围。

　　robots文件放在哪里?

　　对于普通网站来说，robots文件放在网站的根目录下即可，网站http://www.example。com/，那么，robots的访问地址就是http://www.example.com/robots.txt，观察下很多网站都存在robots文件，尤其是淘宝的 www.taobao.com/robots.txt，可以发现，它禁止了百度蜘蛛的爬行。

　　robots文件中，各条指令的用法?

　　一个空的robots文件，写法是这样的：

　　User-agent: *

　　Allow: /

　　表示允许所有搜索引擎蜘蛛爬行

　　如果网站还没有准备好，禁止蜘蛛爬行，则robots应该这样写：

　　User-agent: *

　　Disallow: /

　　相对于小说网站来说，如果不希望蜘蛛爬行网站的管理员目录，可以在robots文件里，这样写：

　　User-agent: *

　　Disallow: /admin/

　　还有一些robots文件中，可以禁止如何你想禁止的文件，比如：

　　禁止蜘蛛爬行所有.jpg、.gif图片，robots写法为

　　User-agent: Baiduspider

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　禁止爬行以file开头的文件夹中，所有的文件，robots写法为

　　User-agent: Baiduspider

　　Disallow: /file~/

　　只允许蜘蛛爬行所有html文件

　　User-agent: *

　　Allow: /*.htm$

　　Disallow: /

　　其实，对于小说站来说，需要禁止的文件不多，对robots文件有一个大致的了解就可以了，需要注意的是，在还没有彻底理解robots的用法规则之前，不要随便使用，防止对网站带来不必要的影响。本文由提供帅老公是高中生全文阅读的Q猪文学站(http://www.qzread.com/)原创发布，转载请注明出处。

meiwen首页更多meiwen