如何构建基于scrapy-redis的分布式爬虫系统(理论详解)?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1134个文字,预计阅读时间需要5分钟。
1. 背景:Scrapy 是一个流行的爬虫框架,但原生不支持分布式。Scrapy-redis 通过引入 Redis 作为基础组件,实现了 Scrapy 的分布式爬取,提供了更便捷的分布式爬取解决方案。
2. 环境:系统:win7;工具:scrapy-redis+r。
1. 背景
Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。
2. 环境
- 系统:win7
- scrapy-redis
- redis 3.0.5
- python 3.6.1
3. 原理
3.1. 对比一下scrapy 和 Scrapy-redis 的架构图。
scrapy架构图:
scrapy-redis 架构图:
多了一个redis组件,主要影响两个地方:第一个是调度器。第二个是数据的处理。
本文共计1134个文字,预计阅读时间需要5分钟。
1. 背景:Scrapy 是一个流行的爬虫框架,但原生不支持分布式。Scrapy-redis 通过引入 Redis 作为基础组件,实现了 Scrapy 的分布式爬取,提供了更便捷的分布式爬取解决方案。
2. 环境:系统:win7;工具:scrapy-redis+r。
1. 背景
Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。
2. 环境
- 系统:win7
- scrapy-redis
- redis 3.0.5
- python 3.6.1
3. 原理
3.1. 对比一下scrapy 和 Scrapy-redis 的架构图。
scrapy架构图:
scrapy-redis 架构图:
多了一个redis组件,主要影响两个地方:第一个是调度器。第二个是数据的处理。

