如何通过Python扩展采集目标,增加某金融论坛的话题广场内容?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1858个文字,预计阅读时间需要8分钟。
本次目标站点原计划是一个相对简单的站点,后来发现有点太简单了,于是额外增加了一个案例,学一学、赠一赠,本篇博客核心用到的技术依旧是用队列+技术。目标站点【一派话题】
本次的目标站点原计划是一个比较简单的站点,后来发现有点太简单了,就额外增加了一个案例,学一个赠一个,本篇博客核心用到的技术依旧是队列 queue 技术。
目标站点分析
本篇博客的第一个采集目标站点是:sspai.com/matrix/pods,少数派网站的一个子级栏目。
目标数据所在界面如下图所示:
通过开发者工具,不断下拉加载页面,得到的接口请求规则如下:
sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=0&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=10&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=20&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=30&created_at=0其中参数除 offset 变化外,其余无变化,其中 limit 参数应该为每个数据量,基于此逻辑,请求接口可以通过代码进行批量生成,实测过程发现数据量也不大,只有 6 页。
下述代码采用了后进先出队列 LifoQueue,没有特殊原因,单纯给大家展示一下用法。
本文共计1858个文字,预计阅读时间需要8分钟。
本次目标站点原计划是一个相对简单的站点,后来发现有点太简单了,于是额外增加了一个案例,学一学、赠一赠,本篇博客核心用到的技术依旧是用队列+技术。目标站点【一派话题】
本次的目标站点原计划是一个比较简单的站点,后来发现有点太简单了,就额外增加了一个案例,学一个赠一个,本篇博客核心用到的技术依旧是队列 queue 技术。
目标站点分析
本篇博客的第一个采集目标站点是:sspai.com/matrix/pods,少数派网站的一个子级栏目。
目标数据所在界面如下图所示:
通过开发者工具,不断下拉加载页面,得到的接口请求规则如下:
sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=0&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=10&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=20&created_at=0 sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=30&created_at=0其中参数除 offset 变化外,其余无变化,其中 limit 参数应该为每个数据量,基于此逻辑,请求接口可以通过代码进行批量生成,实测过程发现数据量也不大,只有 6 页。
下述代码采用了后进先出队列 LifoQueue,没有特殊原因,单纯给大家展示一下用法。

