在研究网页收录的时候,发现其实python爬虫这个东西真的很适合web开发。首先说一下需求,爬取网页然后判断是否收录。目前来说还是只是爬取链接数目,判断是否收录的话水平不够,哈哈。
其实这个跟我之前的那篇文章一样的内容,只不过修改了一下代码而已。不过今天之所以要发,就是因为想给大家分析一下为什么这个代码这么改以及如何进行学习。说到爬虫其实我也是一个小白而已,许多的例子都是通过边百度边查询才做出来的。推荐先看一下我之前的文章,《python爬虫之获取标题和链接》然后呢,这次我其实是想查询一下我发过文章的平台上面的文章是否收录,这样的话就需要得到他们的文章链接了,而我人比较懒,我宁愿学习怎么爬取也不愿意去挨个复制。所以就有了这篇文章。
简单介绍一下思路,一般来说通过xpath获取地址然后通过requests_html就能爬取了,不过方法比较简单。
首先呢,我们先看一下我的个人中心中有多少文章。好吧,先上一下代码吧。
from requests_html
import HTMLSession
session = HTMLSession()
url = "https://learnku.com/blog/datehoer"
r = session.get(url)

for i in range(1, 13):
i = str(i)
urlxpath = '/html/body/div[2]/div[1]/div/div[1]/div/div/div[2]/div['+i+']/div[1]/div[1]/a'
bt = r.html.xpath(urlxpath, first=True).text
c = urlxpath+'/@href'
link = r.html.xpath(c, first=True)
print(link)

我们首先还是要获取一下我们爬取的网页,这里我们通过url来储存了这个网页,里面都是我写的文章。
然后呢,我们直接分析一下这个文章的标题里面a标签的xpath。随便复制几个出来,然后看一下相同的部分以及不同的部分,这是为了写循环做遍历的准备。
然后呢我们发现倒数第三个div内的[id]里的id应该是标签了,通过这个来获取不同的链接,这样我们只需要看一下第一篇和最后一篇的id就行了。
之后通过for循环以及range来进行遍历即可。
其实简单的爬取的话,只需要这么写就能完成了,而一些偏难的,还是需要使用线程来进行遍历。如果有什么不懂的可以评论留言,我会在看到的第一时间进行回复的。

最后修改:2021 年 04 月 20 日 08 : 04 AM
如果觉得我的文章对你有用,请随意赞赏