今天闲的无聊,逛了逛论坛,发现好多以前想做的事情大牛们都已经做过了。


比如说用python爬取笔趣阁小说,说到笔趣阁,大家肯定都不陌生吧,陌生的话请去百度一下啦。


之前其实也写过一些爬虫类的文章,但是确实没这篇有技术含量,不过大佬并没有对代码加过多的解释,所以我重新写了一份。
python 爬取笔趣阁小说
首先简单来看一下它的搜索网址。很容易理解吧,就是在searchkey后面加上你要看的书名就会出现结果了。
当然可能有人会问,为什么会有这个结果,那就是我们去它的首页点击搜索的话,就会出现这个链接了。
python 爬取笔趣阁小说
然后就可以得到这些结果了。


这里我们可以通过xpath来获取它的链接和名字,进行选择下载。


然后我们直接点击第一个链接,毕竟搜斗破苍穹一般就是看原著的,哈哈。
python 爬取笔趣阁小说
然后就能得到这个页面了,其实本来想直接找下载的,但是发现没有,其实这里插一句话,现在好多那种免费的网站其实都有下载全本之类的,只要我们找到合适的位置直接用爬虫爬可以选择下载全本的也是可以的,直接请求连接即可。不过可惜笔趣阁并没有或者我没找到,不过它的文章非常好爬。存在一个div里。
这里我们可以用etree来进行处理,之后再获取内容即可。非常简单。


然后我们只需要设置以下time即可,不要请求的太快,甚至可以借鉴我之前的那个

爬取漫画

的文章。来设置一个timeout如果超时的话进行重新请求,之后请求失败则+1累计多少次放弃,然后进行记录即可。
代码极其简单,就不放在文章里了,其实学了python爬虫之后,大多数的内容其实都是很好爬的,特别是一些免费站,流量站,资源站之类的,再比如说我们的这个博客,就非常好爬。万变不离其宗,有的数据放在明处,有的放在暗处,只不过是难度深浅罢了。
代码放在了我的GitHub库中,感兴趣的可以去看一下https://github.com/datehoer/dayday
python爬虫就简单介绍到这里,如果有什么不会的,可以在评论区留言,我会在看到的第一时间进行回复。

本文作者:博主:     文章标题:python 爬取笔趣阁小说
本文地址:https://zjzdmc.top/jsfx/132.html     
版权说明:若无注明,本文皆为“Datehoer的Blog-个人博客-技术分享”原创,转载请保留文章出处。
最后修改:2021 年 04 月 19 日 02 : 43 PM
如果觉得我的文章对你有用,请随意赞赏