如何解决使用requests库爬取返回空数据的问题?
- 内容介绍
- 相关推荐
本文共计611个文字,预计阅读时间需要3分钟。
首先介绍一下,我用360搜索引擎选取了城市排名前20的城市。爬取的网址为:https://baike.so.com/doc/24368318-25185095.。需要爬取的内容包括:HTML标签、robots协议。目前我们开始使用Python IDLE进行爬取,导入必要的库。
首先介紹一下我們用360搜索派取城市排名前20。
我们爬取的网址:baike.so.com/doc/24368318-25185095.html
我们要爬取的内容:
html字段:
robots协议:
现在我们开始用python IDLE 爬取
import requests r = requests.get("baike.so.com/doc/24368318-25185095.html") r.status_code r.text
结果分析,我们可以成功访问到该网页,但是得不到网页的结果。被360搜索识别,我们将headers修改。
本文共计611个文字,预计阅读时间需要3分钟。
首先介绍一下,我用360搜索引擎选取了城市排名前20的城市。爬取的网址为:https://baike.so.com/doc/24368318-25185095.。需要爬取的内容包括:HTML标签、robots协议。目前我们开始使用Python IDLE进行爬取,导入必要的库。
首先介紹一下我們用360搜索派取城市排名前20。
我们爬取的网址:baike.so.com/doc/24368318-25185095.html
我们要爬取的内容:
html字段:
robots协议:
现在我们开始用python IDLE 爬取
import requests r = requests.get("baike.so.com/doc/24368318-25185095.html") r.status_code r.text
结果分析,我们可以成功访问到该网页,但是得不到网页的结果。被360搜索识别,我们将headers修改。

