Scrapy案例二：如何实现二阶段爬取？

2026-04-30 21:030阅读0评论SEO基础

内容介绍
相关推荐

本文共计1121个文字，预计阅读时间需要5分钟。

我们接下来说说这个爬虫工具Scrapy及其组成部分。Scrapy + 1. Shell 对象和 Selector 对象。Scrapy Shell 是一个交互式终端，它允许我们与 Scrapy 进行交互。它的作用主要是：

- 可以非常方便地进行调试和测试。- 可以启动 Scrapy Shell。

使用 Scrapy Shell 的命令是：`scrapy shell url`。

如果 URL 有参数，可以使用引号将 URL 包围起来。

我们接着说这个爬虫的工具scrapy

1.shell对象和selector对象

scrapy shell就是一个交互式的终端，作用：可以很好的调试，启动：scrapy shell url。

如果url有参数，用引号把url包起来

2.选择器

selector
xpath
extract：返回unicode字符串 css（此处是css选择器）
re(此处是正则)

在我们爬取数据时，数据时分开的，我这里的分开是说数据不在同一个页面，但是呢，我们保存的时候在一个文件。
这个时候，我们就使用到了本篇博客中的方法，mate。
我们可以把爬取的一个页面的值传到第二个页面，然后和第二个页面的数据一起保存。
这个方法是我目前学习到的一种，可能后期还会有更好的方法。这个其一，本篇博客的学习，

其二是写入文件的pipline方法有所改变。一开始我们学习的是打开文件写入。也就是写入多少次，打开多少次，这样会影响爬虫写入文件的性能，所以，我们有个本篇的第二种方法，就是爬虫开启，然后我们打开文件，等爬虫结束，我们关闭文件。

阅读全文

本文共计1121个文字，预计阅读时间需要5分钟。

- 可以非常方便地进行调试和测试。- 可以启动 Scrapy Shell。

使用 Scrapy Shell 的命令是：`scrapy shell url`。

如果 URL 有参数，可以使用引号将 URL 包围起来。

我们接着说这个爬虫的工具scrapy

1.shell对象和selector对象

scrapy shell就是一个交互式的终端，作用：可以很好的调试，启动：scrapy shell url。

如果url有参数，用引号把url包起来

2.选择器

selector
xpath
extract：返回unicode字符串 css（此处是css选择器）
re(此处是正则)

阅读全文

1.shell对象和selector对象

2.选择器

相关推荐

1.shell对象和selector对象

2.选择器

相关推荐