如何用Scrapy实现针对新华网和人民网的长尾关键词高效爬虫？

2026-04-11 04:161阅读0评论SEO教程

本文共计2082个文字，预计阅读时间需要9分钟。

新华为爬虫（2022年6月）+1+分析网站结构+新華網網址：新華網_讓新聞離你更近+（news.cn）+新華網的首頁是帶有關鍵詞搜索功能的，我們嘗試在搜索欄隨意搜索一個關鍵詞，可以發現新華網一個相關頁面。

新华网爬虫（2022年6月）

1 分析网站结构

新华网网址：新华网_让新闻离你更近 (news.cn)

新华网的首页是带有关键词搜索功能的，我们尝试在搜索栏随意搜索一个关键词

可以发现新华网一次最多可以爬取的数据是10000条，且其数据是通过分页显示的

2 分析网页具体组成

在搜索后的显示页面按下F12进入开发者页面，切换到NetWork（网络），然后按下Ctrl+R 刷新页面，可以看到网页的各种请求。

一般情况下服务器返回的数据有HTML和JSON格式的数据:

HTML：一般是选中筛选器中的（DOC）文档，然后点击其请求，最后点击Response（响应）。可以看到服务器的响应输出都是HTML格式的。

对于这种的爬取可以先定位需要的数据的位置（用左上角的小箭头），然后使用正则表达式，BeautifulSoup ， xpath 等等把需要的数据解析出来。

本次使用的是下面一种响应的数据格式。

JSON：某些时候，数据并不一定是放在HTML的标签中的，而是通过其他的数据接口，动态的请求加载进去的（Ajax），一般这种数据的请求类型是XHR，而数据的格式是JSON。