如何用Python编写代码抓取百度贴吧评论中的图片与视频?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1548个文字,预计阅读时间需要7分钟。
IT共享之家,关注,回复,资料,可获取Python学习福利,【一、项目背景】百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到...
“IT共享之家”,进行关注
回复“资料”可获赠Python学习福利
百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢?
今天,小编带大家通过搜索关键字来获取评论区的图片和视频。
实现把贴吧获取的图片或视频保存在一个文件。
1、网址如下:
tieba.baidu.com/f?ie=utf-8&kw=吴京&fr=search2、涉及的库:requests、lxml、urrilb
1、反爬措施的处理
前期测试时发现,该网站反爬虫处理措施很多,测试到有以下几个:
1) 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。
2) 同一个ip连续访问40多次,直接封掉ip,起初我的ip就是这样被封掉的。
为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。
本文共计1548个文字,预计阅读时间需要7分钟。
IT共享之家,关注,回复,资料,可获取Python学习福利,【一、项目背景】百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到...
“IT共享之家”,进行关注
回复“资料”可获赠Python学习福利
百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢?
今天,小编带大家通过搜索关键字来获取评论区的图片和视频。
实现把贴吧获取的图片或视频保存在一个文件。
1、网址如下:
tieba.baidu.com/f?ie=utf-8&kw=吴京&fr=search2、涉及的库:requests、lxml、urrilb
1、反爬措施的处理
前期测试时发现,该网站反爬虫处理措施很多,测试到有以下几个:
1) 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。
2) 同一个ip连续访问40多次,直接封掉ip,起初我的ip就是这样被封掉的。
为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。

