如何通过孔夫子旧书网数据采集案例，学习Python爬虫的第21个实例？

2026-05-28 13:250阅读0评论SEO资讯

本文共计1553个文字，预计阅读时间需要7分钟。

电商类网站爬虫，永远属于爬虫圈必爬项目。今天，我们就以《孔夫子旧书网》为例，练练手。首先，我们需要爬取的目标源数据分析和本次要爬取的网址为：https://book.kongfz.com/Cxiaoshuo/v6/，打开页面寻找分页数据。

电商类网站爬虫，永远是爬虫圈必爬项目。今天我们就拿《孔夫子旧书网》练练手。

爬取目标源数据分析

本次要爬取的目标网址为 book.kongfz.com/Cxiaoshuo/v6/，打开页面寻找分页数据，在下图所示位置可以进行页码切换。

在切换页码的同时，捕获到分页链接，并寻找分页规则。

book.kongfz.com/Cxiaoshuo/v6w1/ book.kongfz.com/Cxiaoshuo/v6w2/ book.kongfz.com/Cxiaoshuo/v6w3/

提炼列表页地址模板为 book.kongfz.com/C{类别}/v6w{页码}/。

上述内容梳理完毕，就可以对列表页进行采集爬取了，本次爬取分为三个步骤进行。

提取所有图书分类；

采集每个类别下的列表页（测试数据，只采集单一分类下的 5 页数据）；

提取目标数据，例如图书名称，作者，出版社，出版时间，店铺名称等信息。

接下来按照步骤实现即可。

通过开发者工具，捕获图书分类区域 HTML 代码，如下所示：

上述数据，可访问任意分类页即可获取，核心代码如下所示，其中 self.get_headers() 函数，可参考之前的博客，或者下载代码查阅。