如何通过孔夫子旧书网数据采集案例,学习Python爬虫的第21个实例?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1553个文字,预计阅读时间需要7分钟。
电商类网站爬虫,永远属于爬虫圈必爬项目。今天,我们就以《孔夫子旧书网》为例,练练手。首先,我们需要爬取的目标源数据分析和本次要爬取的网址为:https://book.kongfz.com/Cxiaoshuo/v6/,打开页面寻找分页数据。
电商类网站爬虫,永远是爬虫圈必爬项目。今天我们就拿《孔夫子旧书网》练练手。
爬取目标源数据分析
本次要爬取的目标网址为 book.kongfz.com/Cxiaoshuo/v6/,打开页面寻找分页数据,在下图所示位置可以进行页码切换。
在切换页码的同时,捕获到分页链接,并寻找分页规则。
book.kongfz.com/Cxiaoshuo/v6w1/ book.kongfz.com/Cxiaoshuo/v6w2/ book.kongfz.com/Cxiaoshuo/v6w3/提炼列表页地址模板为 book.kongfz.com/C{类别}/v6w{页码}/。
上述内容梳理完毕,就可以对列表页进行采集爬取了,本次爬取分为三个步骤进行。
接下来按照步骤实现即可。
提取所有图书分类
通过开发者工具,捕获图书分类区域 HTML 代码,如下所示:
上述数据,可访问任意分类页即可获取,核心代码如下所示,其中 self.get_headers() 函数,可参考之前的博客,或者下载代码查阅。
本文共计1553个文字,预计阅读时间需要7分钟。
电商类网站爬虫,永远属于爬虫圈必爬项目。今天,我们就以《孔夫子旧书网》为例,练练手。首先,我们需要爬取的目标源数据分析和本次要爬取的网址为:https://book.kongfz.com/Cxiaoshuo/v6/,打开页面寻找分页数据。
电商类网站爬虫,永远是爬虫圈必爬项目。今天我们就拿《孔夫子旧书网》练练手。
爬取目标源数据分析
本次要爬取的目标网址为 book.kongfz.com/Cxiaoshuo/v6/,打开页面寻找分页数据,在下图所示位置可以进行页码切换。
在切换页码的同时,捕获到分页链接,并寻找分页规则。
book.kongfz.com/Cxiaoshuo/v6w1/ book.kongfz.com/Cxiaoshuo/v6w2/ book.kongfz.com/Cxiaoshuo/v6w3/提炼列表页地址模板为 book.kongfz.com/C{类别}/v6w{页码}/。
上述内容梳理完毕,就可以对列表页进行采集爬取了,本次爬取分为三个步骤进行。
接下来按照步骤实现即可。
提取所有图书分类
通过开发者工具,捕获图书分类区域 HTML 代码,如下所示:
上述数据,可访问任意分类页即可获取,核心代码如下所示,其中 self.get_headers() 函数,可参考之前的博客,或者下载代码查阅。

