如何编写Python多线程爬取豆瓣影评API接口的脚本?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1108个文字,预计阅读时间需要5分钟。
爬虫库+使用requests库,这是一个阻塞的库,速度相对较慢。+解析使用XPATH表达式,总体采用类的方式,多线程+使用concurrent.future并发模块,建立线程池,把future对象提交执行即可。
爬虫库
使用简单的requests库,这是一个阻塞的库,速度比较慢。
解析使用XPATH表达式
总体采用类的形式
多线程
使用concurrent.future并发模块,建立线程池,把future对象扔进去执行即可实现并发爬取效果
数据存储
使用Python ORM sqlalchemy保存到数据库,也可以使用自带的csv模块存在CSV中。
API接口
因为API接口存在数据保护情况,一个电影的每一个分类只能抓取前25页,全部评论、好评、中评、差评所有分类能爬100页,每页有20个数据,即最多为两千条数据。
本文共计1108个文字,预计阅读时间需要5分钟。
爬虫库+使用requests库,这是一个阻塞的库,速度相对较慢。+解析使用XPATH表达式,总体采用类的方式,多线程+使用concurrent.future并发模块,建立线程池,把future对象提交执行即可。
爬虫库
使用简单的requests库,这是一个阻塞的库,速度比较慢。
解析使用XPATH表达式
总体采用类的形式
多线程
使用concurrent.future并发模块,建立线程池,把future对象扔进去执行即可实现并发爬取效果
数据存储
使用Python ORM sqlalchemy保存到数据库,也可以使用自带的csv模块存在CSV中。
API接口
因为API接口存在数据保护情况,一个电影的每一个分类只能抓取前25页,全部评论、好评、中评、差评所有分类能爬100页,每页有20个数据,即最多为两千条数据。

