robots.txt文件知识大揭密!!!

2016-10-21 00:01 阅读 614 views 次 评论 0 条

什么是robots协议?

robots协议(也称为爬虫协议、机器人协议等),它的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

以下4点让你清楚的了解robots协议:
1.网站和搜索引擎之间的协议文件
2.用于指定Spider在你网站上的抓取范围
3.蜘蛛爬行网站第一个要访问的文件
4.用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息
问:robots.txt文件存放在网站的什么地方?
答:robots.txt文件存放在我们网站的根目录下。
问:如何检测自己网站有没有写robots.txt文件?
答:我们只需要在网站的根域名后面输入robots.txt
示例:www.wumingseo.com/robots.txt
问:robots.txt文件格式有哪些?
答:【三个指令】+【两个符号】
【三个指令】
User-agent: 用户代理——定义搜索引擎类型
Disallow: 不允许——禁止抓取收录地址
Allow: 允许——允许抓取收录地址
【两个符号】
 *   代表所有
 $   结束符
相信大家现在清楚了robots.txt文件了。
 
那么robots我们该如何写呢?
以下是百度官方的robots.txt文件的用法举例,希望大家认真的看完:
robots.txt文件在书写是的注意事项:
1.要在英文状态下书写
2、指令后面要1个空格
3、第一个字母要大写
最后给大家介绍一些各大搜索引擎蜘蛛名称,我们需要把这些带用的蜘蛛名称熟记下来
搜索引擎蜘蛛:
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
有道蜘蛛:YoudaoBot
搜狗蜘蛛:Sogou News Spider
MSN蜘蛛:msnbot
一搜蜘蛛:YisouSpider
宜sou蜘蛛:EasouSpider
一淘网蜘蛛:EtaoSpider
看完这些之后,相信大家对robots.txt文件有了一个比较全面的了解了吧!!

分享到: 微信 更多



版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:robots.txt文件知识大揭密!!! | 衡阳无名SEO