如何用Python爬虫实现案例2中的X凰每日动态抓取？

2026-06-10 22:300阅读0评论SEO教程

本文共计892个文字，预计阅读时间需要4分钟。

学习笔记+PS：这个BLOG是案例2，但我的BLOG里没有案例1，那是因为BLOG1被封了。心痛。+ 爬取新闻和链接+ 我想通过Xpath获取到X新闻网[http://news.ifeng.com/]的3条新闻的和详情链接。

学习笔记
PS:为啥这个BLOG是案例2，但是我的BLOG里没有案例1，那是因为BLOG1被锁了。心痛。

爬取新闻标题和链接

我想通过Xpath拿到X凰X闻[news.ifeng.com/]里的的3条新闻的标题和新闻详情链接该咋整呢？

我们先看看网页源代码：

我们看到我们想拿到的3条新闻标题都在一个ul标签中，ul标签有4个li子节点，每个li节点是一个消息块。

注意，这里明明有4个li节点，但为啥我们只爬取3条新闻的信息呢？因为其中有一个li节点包裹的是广告！！

我们看到，这个包裹着广告的li节点的HTML属性值和结构(截图没有体现出来，但大家可以自己去看)和其他包裹着新闻的li节点很不一样。

在包裹新闻的3个li节点中，均有一个a节点，这个a节点里包含着新闻详情链接，以及新闻标题。由此，我们可以通过这些信息，来思考怎么写Xpath语句了。

注意：我们得到的新闻详情链接[//news.ifeng.com/c/7vNA0WtAcHg]依然是不完整的，没有因特网服务类型(http:)，所以在之后的python代码中，我们要自己加上去。