您的位置首页  散文评论

robots协议(robots协议的定义)太疯狂了

Robots 协议也称作机器人协议,主要用于搜索引擎去抓取网站页面。基于遵循Robots协议进行的爬虫,首先会检查站点根目录下是否存在robot

robots协议(robots协议的定义)太疯狂了

 

Robots协议Robots 协议也称作机器人协议,主要用于搜索引擎去抓取网站页面通常存放在网站根目录下的robots.txt文件该协议主要免去不必要的网站路径进行爬取对于针对性的爬虫也就没什么意义了就好比告诉小偷,别偷你的东西。

基于遵循Robots协议进行的爬虫,首先会检查站点根目录下是否存在robots.txt文件,如果存在则根据其中定义的爬取范围进行爬取如果没有则直接访问页面Robots规范用户代理指令使用user-agent指令用于指定规则适用于所有爬网程序:。

User-agent: *主要有Googlebot、BaiduSpider等标识禁止指令通过一个或多个disallow 指令来遵循用户代理:User-agent:* Disallow:/User disallow指定url后缀紧接着/User的链接则被阻止。

允许指令通过allow指令可以避开disallow阻止的链接:User-agent:* Allow:/User/007 Disallow:/User 在disallow指定url后缀紧接着/User的页面则被阻止后,允许爬取/User/007链接地址。

Sitemap 指令主要用于标识网站地图:User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https

://www.lubaogui.com/wp-sitemap.xml在各个搜索引擎站长工具上使用,便于搜索引擎收录Robots 使用使用robotparser模块进行检验是否遵循robots协议,代码如下:。

from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp =RobotFileParser() rp.parse(urlopen(

https://www.lubaogui.com/robots.txt)read()decode(utf-8).split(\n)) print(rp.can_fetch(*, https://www.lubaogui.com/96

)) === 打印结果 === True‍虽然爬虫普遍并没用去遵循robots.txt协议,但是建议各位进行爬取时,合理处理提取效率。避免影响目标站点的负载。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186