Scrapy如何与selenium结合实现网页爬取?

2026-05-05 12:570阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计851个文字,预计阅读时间需要4分钟。

Scrapy如何与selenium结合实现网页爬取?

1. 背景及工具在网页爬取过程中,我们常用三个爬虫库:requests、scrapy和selenium。requests适用于小型爬虫,scrapy用于构建大型爬虫项目,而selenium主要用于处理复杂JS渲染的页面。

1.背景

  • 我们在爬取网页时一般会使用到三个爬虫库:requests,scrapy,selenium。requests一般用于小型爬虫,scrapy用于构建大的爬虫项目,而selenium主要用来应付负责的页面(复杂js渲染的页面,请求非常难构造,或者构造方式经常变化)。
  • 在我们面对大型爬虫项目时,肯定会优选scrapy框架来开发,但是在解析复杂JS渲染的页面时,又很麻烦。 尽管使用selenium浏览器渲染来抓取这样的页面很方便,这种方式下,我们不需要关心页面后台发生了怎样的请求,也不需要分析整个页面的渲染过程,我们只需要关心页面最终结果即可,可见即可爬,但是selenium的效率又太低。
  • 所以,如果可以在scrapy中,集成selenium,让selenium负责复杂页面的爬取,那么这样的爬虫就无敌了,可以爬取任何网站了。
阅读全文

本文共计851个文字,预计阅读时间需要4分钟。

Scrapy如何与selenium结合实现网页爬取?

1. 背景及工具在网页爬取过程中,我们常用三个爬虫库:requests、scrapy和selenium。requests适用于小型爬虫,scrapy用于构建大型爬虫项目,而selenium主要用于处理复杂JS渲染的页面。

1.背景

  • 我们在爬取网页时一般会使用到三个爬虫库:requests,scrapy,selenium。requests一般用于小型爬虫,scrapy用于构建大的爬虫项目,而selenium主要用来应付负责的页面(复杂js渲染的页面,请求非常难构造,或者构造方式经常变化)。
  • 在我们面对大型爬虫项目时,肯定会优选scrapy框架来开发,但是在解析复杂JS渲染的页面时,又很麻烦。 尽管使用selenium浏览器渲染来抓取这样的页面很方便,这种方式下,我们不需要关心页面后台发生了怎样的请求,也不需要分析整个页面的渲染过程,我们只需要关心页面最终结果即可,可见即可爬,但是selenium的效率又太低。
  • 所以,如果可以在scrapy中,集成selenium,让selenium负责复杂页面的爬取,那么这样的爬虫就无敌了,可以爬取任何网站了。
阅读全文