懒人畅听网如何用Python爬虫多线程高效采集有声小说类目数据?
- 内容介绍
- 文章标签
- 相关推荐
本文共计871个文字,预计阅读时间需要4分钟。
多线程在Python爬虫学习过程中应用落地,提速,提速,再提速。目标站点分析,本次主要抓取的目标为懒人听网,其中我随机选择了一个分类,有有声小说频道的帖子,其他频道可用雷同的办
多线程在 Python 爬虫学习过程中应用落地,提速,提速,再提速。
目标站点分析
本次要抓取的目标为懒人畅听网,其中我随机选择了一个分类,有声小说频道,其余频道可使用雷同的办法抓取,增加遍历之后,可以对全站进行抓取。列表页分页规则如下本次依旧只对列表页数据进行提取,只增加多线程模块 threading 的应用,提高采集效率。
www.lrts.me/book/category/1/recommend/1/20 www.lrts.me/book/category/1/recommend/2/20提取规则模板如下:
www.lrts.me/book/category/1/recommend/页码/20全站页码数,可以直接人眼读取,如果增加动态获取,提取读取一下分页处数据即可。
提取最终的数据源如下图所示,包括书名,作者,主播三部分内容。
编码时间
本次案例中对于多线程部分,除共享全局变量外,增加信号量机制,即限制线程并发数量。
本文共计871个文字,预计阅读时间需要4分钟。
多线程在Python爬虫学习过程中应用落地,提速,提速,再提速。目标站点分析,本次主要抓取的目标为懒人听网,其中我随机选择了一个分类,有有声小说频道的帖子,其他频道可用雷同的办
多线程在 Python 爬虫学习过程中应用落地,提速,提速,再提速。
目标站点分析
本次要抓取的目标为懒人畅听网,其中我随机选择了一个分类,有声小说频道,其余频道可使用雷同的办法抓取,增加遍历之后,可以对全站进行抓取。列表页分页规则如下本次依旧只对列表页数据进行提取,只增加多线程模块 threading 的应用,提高采集效率。
www.lrts.me/book/category/1/recommend/1/20 www.lrts.me/book/category/1/recommend/2/20提取规则模板如下:
www.lrts.me/book/category/1/recommend/页码/20全站页码数,可以直接人眼读取,如果增加动态获取,提取读取一下分页处数据即可。
提取最终的数据源如下图所示,包括书名,作者,主播三部分内容。
编码时间
本次案例中对于多线程部分,除共享全局变量外,增加信号量机制,即限制线程并发数量。

