如何用Scrapy实现针对新华网和人民网的长尾关键词高效爬虫?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2082个文字,预计阅读时间需要9分钟。
新华为爬虫(2022年6月)+1+分析网站结构+新華網網址:新華網_讓新聞離你更近+(news.cn)+新華網的首頁是帶有關鍵詞搜索功能的,我們嘗試在搜索欄隨意搜索一個關鍵詞,可以發現新華網一個相關頁面。
新华网爬虫(2022年6月)1 分析网站结构
新华网网址:新华网_让新闻离你更近 (news.cn)
新华网的首页是带有关键词搜索功能的,我们尝试在搜索栏随意搜索一个关键词
可以发现新华网一次最多可以爬取的数据是10000条,且其数据是通过分页显示的
2 分析网页具体组成
在搜索后的显示页面按下F12进入开发者页面,切换到NetWork(网络),然后按下Ctrl+R 刷新页面,可以看到网页的各种请求。
一般情况下服务器返回的数据有HTML和JSON格式的数据:
HTML:一般是选中筛选器中的(DOC)文档,然后点击其请求,最后点击Response(响应)。可以看到服务器的响应输出都是HTML格式的。
对于这种的爬取可以先定位需要的数据的位置(用左上角的小箭头),然后使用正则表达式 ,BeautifulSoup , xpath 等等把需要的数据解析出来。
本次使用的是下面一种响应的数据格式。
JSON:某些时候,数据并不一定是放在HTML的标签中的,而是通过其他的数据接口,动态的请求加载进去的(Ajax),一般这种数据的请求类型是XHR,而数据的格式是JSON。
本文共计2082个文字,预计阅读时间需要9分钟。
新华为爬虫(2022年6月)+1+分析网站结构+新華網網址:新華網_讓新聞離你更近+(news.cn)+新華網的首頁是帶有關鍵詞搜索功能的,我們嘗試在搜索欄隨意搜索一個關鍵詞,可以發現新華網一個相關頁面。
新华网爬虫(2022年6月)1 分析网站结构
新华网网址:新华网_让新闻离你更近 (news.cn)
新华网的首页是带有关键词搜索功能的,我们尝试在搜索栏随意搜索一个关键词
可以发现新华网一次最多可以爬取的数据是10000条,且其数据是通过分页显示的
2 分析网页具体组成
在搜索后的显示页面按下F12进入开发者页面,切换到NetWork(网络),然后按下Ctrl+R 刷新页面,可以看到网页的各种请求。
一般情况下服务器返回的数据有HTML和JSON格式的数据:
HTML:一般是选中筛选器中的(DOC)文档,然后点击其请求,最后点击Response(响应)。可以看到服务器的响应输出都是HTML格式的。
对于这种的爬取可以先定位需要的数据的位置(用左上角的小箭头),然后使用正则表达式 ,BeautifulSoup , xpath 等等把需要的数据解析出来。
本次使用的是下面一种响应的数据格式。
JSON:某些时候,数据并不一定是放在HTML的标签中的,而是通过其他的数据接口,动态的请求加载进去的(Ajax),一般这种数据的请求类型是XHR,而数据的格式是JSON。

