robots协议(robots协议的定义)太疯狂了
Robots 协议也称作机器人协议,主要用于搜索引擎去抓取网站页面。基于遵循Robots协议进行的爬虫,首先会检查站点根目录下是否存在robot
Robots协议Robots 协议也称作机器人协议,主要用于搜索引擎去抓取网站页面通常存放在网站根目录下的robots.txt文件该协议主要免去不必要的网站路径进行爬取对于针对性的爬虫也就没什么意义了就好比告诉小偷,别偷你的东西。
基于遵循Robots协议进行的爬虫,首先会检查站点根目录下是否存在robots.txt文件,如果存在则根据其中定义的爬取范围进行爬取如果没有则直接访问页面Robots规范用户代理指令使用user-agent指令用于指定规则适用于所有爬网程序:。
User-agent: *主要有Googlebot、BaiduSpider等标识禁止指令通过一个或多个disallow 指令来遵循用户代理:User-agent:* Disallow:/User disallow指定url后缀紧接着/User的链接则被阻止。
允许指令通过allow指令可以避开disallow阻止的链接:User-agent:* Allow:/User/007 Disallow:/User 在disallow指定url后缀紧接着/User的页面则被阻止后,允许爬取/User/007链接地址。
Sitemap 指令主要用于标识网站地图:User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https
://www.lubaogui.com/wp-sitemap.xml在各个搜索引擎站长工具上使用,便于搜索引擎收录Robots 使用使用robotparser模块进行检验是否遵循robots协议,代码如下:。
from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp =RobotFileParser() rp.parse(urlopen(
https://www.lubaogui.com/robots.txt)read()decode(utf-8).split(\n)) print(rp.can_fetch(*, https://www.lubaogui.com/96
)) === 打印结果 === True虽然爬虫普遍并没用去遵循robots.txt协议,但是建议各位进行爬取时,合理处理提取效率。避免影响目标站点的负载。
- 标签:
- 编辑:李松一
- 相关文章
-
智慧团建初始密码(智慧团建初始密码修改)怎么可以错过
答:为方便毕业学生团员转接团组织关系,大型企业园区团工委可以参照乡镇街道团工委设立“学社衔接临时团支部”,接收在本园区工作而单…
-
war3地图(war3地图编辑器教程)墙裂推荐
上周,《蛋仔派对》迎来了它的一岁生日,并在重庆举办了首届创作者大会。说实话,自从今年线下活动恢复以来,葡萄君几乎每周都在经历各种…
- gbr是哪个国家的缩写(gbr衣服是什么品牌)这样也行?
- tsl船公司(TSL船公司)居然可以这样
- tsl船公司(TSL船公司)没想到
- chrome web store(chrome web store 安卓下载)深度揭秘
- hs code查询(hs code查询编码 83040000)速看