robots协议(robots协议的定义)太疯狂了

来源：互联网
|
2023-07-01
|
0 条评论
|
T小字　 T大字

Robots 协议也称作机器人协议，主要用于搜索引擎去抓取网站页面。基于遵循Robots协议进行的爬虫，首先会检查站点根目录下是否存在robot

Robots协议Robots 协议也称作机器人协议，主要用于搜索引擎去抓取网站页面通常存放在网站根目录下的robots.txt文件该协议主要免去不必要的网站路径进行爬取对于针对性的爬虫也就没什么意义了就好比告诉小偷，别偷你的东西。

基于遵循Robots协议进行的爬虫，首先会检查站点根目录下是否存在robots.txt文件，如果存在则根据其中定义的爬取范围进行爬取如果没有则直接访问页面Robots规范用户代理指令使用user-agent指令用于指定规则适用于所有爬网程序：。

User-agent： *主要有Googlebot、BaiduSpider等标识禁止指令通过一个或多个disallow 指令来遵循用户代理：User-agent：* Disallow：/User disallow指定url后缀紧接着/User的链接则被阻止。

允许指令通过allow指令可以避开disallow阻止的链接：User-agent：* Allow：/User/007 Disallow：/User 在disallow指定url后缀紧接着/User的页面则被阻止后，允许爬取/User/007链接地址。

Sitemap 指令主要用于标识网站地图：User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https

://www.lubaogui.com/wp-sitemap.xml在各个搜索引擎站长工具上使用，便于搜索引擎收录Robots 使用使用robotparser模块进行检验是否遵循robots协议，代码如下：。

from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp =RobotFileParser() rp.parse(urlopen(

https://www.lubaogui.com/robots.txt)read()decode(utf-8).split(\n)) print(rp.can_fetch(*, https://www.lubaogui.com/96

)) === 打印结果 === True‍虽然爬虫普遍并没用去遵循robots.txt协议，但是建议各位进行爬取时，合理处理提取效率。避免影响目标站点的负载。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186

标签：
编辑：李松一
相关文章

相关链接 更多>>

散文评论文章的经典话语怎么写的好我在等你余秋雨散文评论分析

散文评论文章的经典话语有哪些内容呢散文评论怎么写好呢女生2023年散文征稿

如何写散文评论文章的句子散文评论要点怎么写范文大全四年级

智慧团建初始密码(智慧团建初始密码修改)怎么可以错过
答：为方便毕业学生团员转接团组织关系，大型企业园区团工委可以参照乡镇街道团工委设立“学社衔接临时团支部”，接收在本园区工作而单…
war3地图(war3地图编辑器教程)墙裂推荐
上周，《蛋仔派对》迎来了它的一岁生日，并在重庆举办了首届创作者大会。说实话，自从今年线下活动恢复以来，葡萄君几乎每周都在经历各种…
gbr是哪个国家的缩写(gbr衣服是什么品牌)这样也行？
tsl船公司(TSL船公司)居然可以这样
tsl船公司(TSL船公司)没想到
chrome web store(chrome web store 安卓下载)深度揭秘
hs code查询(hs code查询编码 83040000)速看

网站推荐更多>>

散文评论文章的经典话语怎么写的好我在等你余秋雨散文评论分析

散文评论写作方法是什么散文评论怎么写范文初中作文

robots协议(robots协议的定义)太疯狂了

智慧团建初始密码(智慧团建初始密码修改)怎么可以错过

war3地图(war3地图编辑器教程)墙裂推荐

gbr是哪个国家的缩写(gbr衣服是什么品牌)这样也行？

tsl船公司(TSL船公司)居然可以这样

tsl船公司(TSL船公司)没想到

chrome web store(chrome web store 安卓下载)深度揭秘

hs code查询(hs code查询编码 83040000)速看

漏洞扫描工具(漏洞检测工具)奔走相告

unicode转中文(Unicode转中文接口api)居然可以这样

网站热点更多>>

散文评论文章怎么写范文好山水散文作家散文的三个特点

如何写散文评论文章的句子散文评论要点怎么写范文大全四年级

robots协议(robots协议的定义)太疯狂了

学会了吗极限轮滑(极限轮滑视频)

手机触摸屏(手机触摸屏不灵敏怎么办)居然可以这样

硬核推荐搪瓷杯(搪瓷杯掉瓷了生锈了还能用吗)

越早知道越好紫菜之乡(紫菜之乡-福建霞浦)

奔走相告地方门户网站加盟(地方生活门户网站)

广州4a广告公司(广州4a广告公司名单甲乙)全程干货

智慧团建初始密码(智慧团建初始密码修改)怎么可以错过

丽台q600(丽台q600支持4k吗)深度揭秘

学到了吗竹鼠养殖前景(竹鼠养殖前景如何)

点击排行更多>>

散文杂志名家经典短篇散文精选散文精选短篇50字摘抄

田螺姑娘(田螺姑娘是什么意思)

交个朋友(交个朋友怎么回答对方)

让真情自然流露500字作文(让真情自然流露500字作文高兴)

描写春天的古诗(描写春天的古诗30首)

呼和浩特是哪个省(呼和浩特是哪个省哪个城市)

我学会了包饺子(我学会了包饺子作文600字)

长大尾巴的兔子(长大尾巴的兔子故事)

早安温罄句子(早安朋友圈高质量句子)

三年级作文我的植物朋友300字(三年级作文我的植物朋友300字含羞草)

含沙射影是什么意思(含沙射影是什么意思比喻什么)

友情链接： 加链QQ:1640731186