虎牙直播数据采集,如何用Python爬虫第24例储备数据分析资料?
- 内容介绍
- 文章标签
- 相关推荐
本文共计945个文字,预计阅读时间需要4分钟。
今天要抓取的是虎牙频道的直播页面,本篇博客的学习重点依赖于多线程爬虫。目标数据包括以下数据列:
- 数据在切换时,来源于服务器接口。- 特殊案例示例:面
今天要抓取的是虎牙频道的直播页,本篇博客的学习重点,依旧是多线程爬虫。
目标数据分析
本次要采集的数据列表呈现如下,其中数据在切换时,来自于服务器接口,故本案例为面向接口的多线程爬虫。
接口 API 如下所示:
www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=2 www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=3接口请求方式为:GET服务器数据返回格式为:JSON其中参数说明如下:
- m:猜测为频道的意思;
- do:接口名称;
- tagAll:标签名;
- callback:回调函数;
- page:页码。
本文共计945个文字,预计阅读时间需要4分钟。
今天要抓取的是虎牙频道的直播页面,本篇博客的学习重点依赖于多线程爬虫。目标数据包括以下数据列:
- 数据在切换时,来源于服务器接口。- 特殊案例示例:面
今天要抓取的是虎牙频道的直播页,本篇博客的学习重点,依旧是多线程爬虫。
目标数据分析
本次要采集的数据列表呈现如下,其中数据在切换时,来自于服务器接口,故本案例为面向接口的多线程爬虫。
接口 API 如下所示:
www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=2 www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=3接口请求方式为:GET服务器数据返回格式为:JSON其中参数说明如下:
- m:猜测为频道的意思;
- do:接口名称;
- tagAll:标签名;
- callback:回调函数;
- page:页码。

