如何用Python爬虫实现案例2中的X凰每日动态抓取?

2026-06-10 22:300阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计892个文字,预计阅读时间需要4分钟。

如何用Python爬虫实现案例2中的X凰每日动态抓取?

学习笔记+PS:这个BLOG是案例2,但我的BLOG里没有案例1,那是因为BLOG1被封了。心痛。+ 爬取新闻和链接+ 我想通过Xpath获取到X新闻网[http://news.ifeng.com/]的3条新闻的和详情链接。

学习笔记
PS:为啥这个BLOG是案例2,但是我的BLOG里没有案例1,那是因为BLOG1被锁了。心痛。


爬取新闻标题和链接

我想通过Xpath拿到X凰X闻[news.ifeng.com/]里的的3条新闻的标题和新闻详情链接该咋整呢?

我们先看看网页源代码:

我们看到我们想拿到的3条新闻标题都在一个ul标签中,ul标签有4个li子节点,每个li节点是一个消息块。

注意,这里明明有4个li节点,但为啥我们只爬取3条新闻的信息呢?因为其中有一个li节点包裹的是广告!!

我们看到,这个包裹着广告的li节点的HTML属性值和结构(截图没有体现出来,但大家可以自己去看)和其他包裹着新闻的li节点很不一样。

在包裹新闻的3个li节点中,均有一个a节点,这个a节点里包含着新闻详情链接,以及新闻标题。由此,我们可以通过这些信息,来思考怎么写Xpath语句了。

注意:我们得到的新闻详情链接[//news.ifeng.com/c/7vNA0WtAcHg]依然是不完整的,没有因特网服务类型(http:),所以在之后的python代码中,我们要自己加上去。

阅读全文
标签:一天学习

本文共计892个文字,预计阅读时间需要4分钟。

如何用Python爬虫实现案例2中的X凰每日动态抓取?

学习笔记+PS:这个BLOG是案例2,但我的BLOG里没有案例1,那是因为BLOG1被封了。心痛。+ 爬取新闻和链接+ 我想通过Xpath获取到X新闻网[http://news.ifeng.com/]的3条新闻的和详情链接。

学习笔记
PS:为啥这个BLOG是案例2,但是我的BLOG里没有案例1,那是因为BLOG1被锁了。心痛。


爬取新闻标题和链接

我想通过Xpath拿到X凰X闻[news.ifeng.com/]里的的3条新闻的标题和新闻详情链接该咋整呢?

我们先看看网页源代码:

我们看到我们想拿到的3条新闻标题都在一个ul标签中,ul标签有4个li子节点,每个li节点是一个消息块。

注意,这里明明有4个li节点,但为啥我们只爬取3条新闻的信息呢?因为其中有一个li节点包裹的是广告!!

我们看到,这个包裹着广告的li节点的HTML属性值和结构(截图没有体现出来,但大家可以自己去看)和其他包裹着新闻的li节点很不一样。

在包裹新闻的3个li节点中,均有一个a节点,这个a节点里包含着新闻详情链接,以及新闻标题。由此,我们可以通过这些信息,来思考怎么写Xpath语句了。

注意:我们得到的新闻详情链接[//news.ifeng.com/c/7vNA0WtAcHg]依然是不完整的,没有因特网服务类型(http:),所以在之后的python代码中,我们要自己加上去。

阅读全文
标签:一天学习