好久好久没更新文章了,一部分是因为懒,一部分是因为再学别的内容,所以就没有进行更新了,不过最近新买了一个python scrapy的课程,所以准备在学习的时候进行文章的更新。

寒江孤影,江湖故人。

之所以要学习scrapy,我觉得:

  1. 学习一下最热门的内容
  2. 花钱了
  3. 需要进阶
  4. 跟着老师学习,有一个系统的学习路线
#coding:utf-8


from scrapy import Request
from scrapy.spiders import Spider


class HotsalesSpider(Spider):
    name = "hot" # 爬虫名称
    headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"}
    def start_requests(self):
        url = "https://www.qidian.com/rank/yuepiao?style=1"
        yield Request(url)

    def parse(self, response):  # 数据解析
        # 使用xpath定位
        list_selector = response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            # 获取小说信息
            name = one_selector.xpath("h4/a/text()").extract()[0] # 把对应的文字提取出来
            # 作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            # 类型
            lx = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 形式
            xs = one_selector.xpath("p[1]/span/text()").extract()[0]
            # 定义字典
            hot_dict = {
                "name": name,
                "author": author,
                "lx": lx,
                "xs": xs
            }
            yield hot_dict

scrapy运行的话,一开始是通过cmd命令行。
进入到目录下然后scrapy crawl hot -o hot.csv即可。hot为爬虫名字,hot.csv为储存的文件名。

最后修改:2021 年 07 月 26 日 10 : 55 AM
如果觉得我的文章对你有用,请随意赞赏