您的位置首页散文杂谈

daomubiji.com(盗墓笔记com是官方的吗)满满干货

来源：互联网
|
2023-11-16
|
0 条评论
|
T小字　 T大字

按这个目录结构抓取。items，settings，middlewares正常配置。spider。pipelines。

按这个目录结构抓取

items，settings，middlewares正常配置spiderimport scrapy import os classDmbjSpider(scrapy.Spider): name =

dmbj allowed_domains = [www.daomubiji.com] defstart_requests(self): start_url =

for i in range(1, 12): if i < 9: start_url = http://www.daomubiji.com/dao-mu-bi-ji-{}

.format(i) elif i == 9: start_url = http://www.daomubiji.com/dao-mu-bi-ji-2015

elif i == 10: start_url = http://www.daomubiji.com/sha-haielif i == 11: start_url =

http://www.daomubiji.com/zang-hai-huayield scrapy.Request(start_url, callback=self.list_parse) def

list_parse(self, response): list_urls = response.xpath(//article[@class="excerpt excerpt-c3"]/a/@href

) for url in list_urls: item = {} # item要在循环内定义，否则会被覆盖为最后一个url detail_url = url.get() item[

url] = detail_url ifqi-xing-lu-wangin item[url]: item[path] = 盗墓笔记/七星鲁王/elif

nu-hai-qian-shain item[url]: item[path] = 盗墓笔记/怒海潜沙/elifqin-ling-shen-shuin item[url]: item[

path] = 盗墓笔记/秦岭神树/elifyun-ding-tian-gongin item[url]: item[path] = 盗墓笔记/云顶天宫/elifshe-zhao-gui-cheng

in item[url]: item[path] = 盗墓笔记/蛇沼鬼城/elifmi-hai-gui-chaoin item[url]: item[

path] = 盗墓笔记/谜海归巢/elif2-yin-ziin item[url]: item[path] = 盗墓笔记/第二季/引子/elifyin-shan-gu-lou

in item[url]: item[path] = 盗墓笔记/第二季/阴山古楼/elifqiong-long-shi-yingin item[url]: item[

path] = 盗墓笔记/第二季/邛笼石影/elifdao-mu-bi-ji-7in item[url]: item[path] = 盗墓笔记/第二季/盗墓笔记7/elif

dajiejuin item[url]: item[path] = 盗墓笔记/第二季/大结局/elif2015in item[url]: item[

path] = 盗墓笔记/2015年更新/elifshahaiin item[url]: item[path] = 盗墓笔记/沙海/elifzang-hai-huain item[

url]: item[path] = 盗墓笔记/藏海花/else: print(这个网页没找到路径：, item[url])

ifnot os.path.exists(item[path]): os.makedirs(item[path]) yield scrapy.Request(detail_url, meta={

item:item},callback=self.parse) defparse(self, response, **kwargs): item = response.meta[

item] item[name] = response.xpath(//h1/text()).get().replace(?, ) contents = response.xpath(

//article//text()) content = for i in contents: content += i.get().strip().replace(

\\u3000, ) + \n item[content] = content yield itempipelinesclassDaomuPipeline:defprocess_item

(self, item, spider): file_name = item[name] + .txtwith open(item[path] + file_name, w, encoding=

utf-8) as f: f.write(item[content]) print(file_name + --> 保存到 /{} --> 成功!.format(item[

path])) return item

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186

标签：
编辑：李松一
相关文章

相关链接 更多>>

《风筝》散文散文杂谈怎么写范文模板

散文的特点六要素中国散文网投稿散文精选名篇

鲁大师 360(鲁大师下载安装)这都可以？
活动介绍：应用宝下载“放假周边游”APP，返回领取10M-100M的流量，三网通活动时间：结束未知活动步骤：…
狗民网(狗民网下载)硬核推荐
最激动人心的事情，是能够从每一个产品的小细节里发现了增长的大秘密。
狗民网(狗民网下载)速看
微银行(微银行收不到交易信息)墙裂推荐
萧山透明售房网(萧山房产网)学到了
嘀哩嘀哩网站(嘀哩嘀哩网站网页版入口)速看
可乐电影网(可乐电影网第一集在线观看)新鲜出炉

网站推荐更多>>

《风筝》散文散文杂谈怎么写范文模板

daomubiji.com(盗墓笔记com是官方的吗)满满干货

鲁大师 360(鲁大师下载安装)这都可以？

嘀哩嘀哩网站(嘀哩嘀哩网站网页版入口)速看

可乐电影网(可乐电影网第一集在线观看)新鲜出炉

258电影网(宅宅电影网)学会了吗

围棋起源于哪个国家(围棋起源于哪个朝代)一看就会

网站热点更多>>

《风筝》散文散文杂谈怎么写范文模板

散文杂谈手抄报模板图片高清散文书籍排行榜前十名散文杂谈是什么文体类型的

daomubiji.com(盗墓笔记com是官方的吗)满满干货

黑暗风暴(黑暗风暴鸡尾酒)没想到

qq对对碰(qq对对碰单机版)一篇读懂

干货分享111111111(111111111÷9等于多少)

燃爆了世界上最贵的手机(世界上最贵的一张奥特曼卡片)

蝶恋花柳永(蝶恋花柳永伫倚危楼风细细)一看就会

鲁大师 360(鲁大师下载安装)这都可以？

狗民网(狗民网下载)硬核推荐

qq对对碰(qq对对碰单机版)原创

彭坤(彭坤为什么不上新闻联播)一篇读懂

点击排行更多>>

给一篇散文评论的范文600字怎么写散文《遇见》余秋雨主要内容

田螺姑娘(田螺姑娘是什么意思)

交个朋友(交个朋友怎么回答对方)

让真情自然流露500字作文(让真情自然流露500字作文高兴)

描写春天的古诗(描写春天的古诗30首)

呼和浩特是哪个省(呼和浩特是哪个省哪个城市)

我学会了包饺子(我学会了包饺子作文600字)

长大尾巴的兔子(长大尾巴的兔子故事)

早安温罄句子(早安朋友圈高质量句子)

三年级作文我的植物朋友300字(三年级作文我的植物朋友300字含羞草)

含沙射影是什么意思(含沙射影是什么意思比喻什么)

友情链接： 加链QQ:1640731186