robots.txt 文件的格式详细解析,自我检测robots.txt

一、User-agent:
这项是说明让蜘蛛(机器人)访问的名字,在整个robots.txt 文件中,有且只有一条,而且还是在第一行的位置,一般的写法有下面几种:
User-agent:*
说明对任何的robot有用。如果只让部分搜索引擎的机器人(蜘蛛)来抓取的话,就是可以通过User-agent: 来设置。
二、Disallow:
这项是说明不希望被抓取的地址,如有一些网站对会员的一些活动,不希望被搜索引擎抓取,那就通过此项来设置,如:
Disallow:/ceshi/
这是说明不希望搜索引擎的蜘蛛抓取王章下面的ceshi 分类的所有内容。
三、Allow:
这项是说明希望被抓取的地址,如你希望搜索引擎抓取并排名的网页,如你的招聘网页,招商网页等。像我的网站就是下面的这种写法:
Allow:/
这是说明希望搜索引擎全部都抓取,这样你的网站上的网页等信息都会抓取的。
四、特殊字符:
1、* :全部的意思,就像刚刚所说的“ User-agent:* ”就是希望全部的搜索引擎去抓取。
2、$ :匹配行结束的符号
就像有的网站不希望被搜索引擎抓取,如:淘宝。
而有的网站不希望被搜索引擎抓取部分网页。如:刘广法博客的robots.txt 文件(也就是本站)。
拓展阅读:
文章原创,转载请注意出处,来源:刘广法博客,不保留必追究