如何用Python爬虫实现案例2中的X凰每日动态抓取?
- 内容介绍
- 文章标签
- 相关推荐
本文共计892个文字,预计阅读时间需要4分钟。
学习笔记+PS:这个BLOG是案例2,但我的BLOG里没有案例1,那是因为BLOG1被封了。心痛。+ 爬取新闻和链接+ 我想通过Xpath获取到X新闻网[http://news.ifeng.com/]的3条新闻的和详情链接。
学习笔记
PS:为啥这个BLOG是案例2,但是我的BLOG里没有案例1,那是因为BLOG1被锁了。心痛。
爬取新闻标题和链接
我想通过Xpath拿到X凰X闻[news.ifeng.com/]里的的3条新闻的标题和新闻详情链接该咋整呢?
我们先看看网页源代码:
我们看到我们想拿到的3条新闻标题都在一个ul标签中,ul标签有4个li子节点,每个li节点是一个消息块。
注意,这里明明有4个li节点,但为啥我们只爬取3条新闻的信息呢?因为其中有一个li节点包裹的是广告!!
我们看到,这个包裹着广告的li节点的HTML属性值和结构(截图没有体现出来,但大家可以自己去看)和其他包裹着新闻的li节点很不一样。
在包裹新闻的3个li节点中,均有一个a节点,这个a节点里包含着新闻详情链接,以及新闻标题。由此,我们可以通过这些信息,来思考怎么写Xpath语句了。
注意:我们得到的新闻详情链接[//news.ifeng.com/c/7vNA0WtAcHg]依然是不完整的,没有因特网服务类型(http:),所以在之后的python代码中,我们要自己加上去。
本文共计892个文字,预计阅读时间需要4分钟。
学习笔记+PS:这个BLOG是案例2,但我的BLOG里没有案例1,那是因为BLOG1被封了。心痛。+ 爬取新闻和链接+ 我想通过Xpath获取到X新闻网[http://news.ifeng.com/]的3条新闻的和详情链接。
学习笔记
PS:为啥这个BLOG是案例2,但是我的BLOG里没有案例1,那是因为BLOG1被锁了。心痛。
爬取新闻标题和链接
我想通过Xpath拿到X凰X闻[news.ifeng.com/]里的的3条新闻的标题和新闻详情链接该咋整呢?
我们先看看网页源代码:
我们看到我们想拿到的3条新闻标题都在一个ul标签中,ul标签有4个li子节点,每个li节点是一个消息块。
注意,这里明明有4个li节点,但为啥我们只爬取3条新闻的信息呢?因为其中有一个li节点包裹的是广告!!
我们看到,这个包裹着广告的li节点的HTML属性值和结构(截图没有体现出来,但大家可以自己去看)和其他包裹着新闻的li节点很不一样。
在包裹新闻的3个li节点中,均有一个a节点,这个a节点里包含着新闻详情链接,以及新闻标题。由此,我们可以通过这些信息,来思考怎么写Xpath语句了。
注意:我们得到的新闻详情链接[//news.ifeng.com/c/7vNA0WtAcHg]依然是不完整的,没有因特网服务类型(http:),所以在之后的python代码中,我们要自己加上去。

