Scrapy案例二:如何实现二阶段爬取?
- 内容介绍
- 相关推荐
本文共计1121个文字,预计阅读时间需要5分钟。
我们接下来说说这个爬虫工具Scrapy及其组成部分。Scrapy + 1. Shell 对象和 Selector 对象。Scrapy Shell 是一个交互式终端,它允许我们与 Scrapy 进行交互。它的作用主要是:
- 可以非常方便地进行调试和测试。- 可以启动 Scrapy Shell。
使用 Scrapy Shell 的命令是:`scrapy shell url`。
如果 URL 有参数,可以使用引号将 URL 包围起来。
我们接着说这个爬虫的工具scrapy
1.shell对象和selector对象
scrapy shell就是一个交互式的终端,作用:可以很好的调试,启动:scrapy shell url。
如果url有参数,用引号把url包起来
2.选择器
selector
xpath
extract:返回unicode字符串
css(此处是css选择器)
re(此处是正则)
在我们爬取数据时,数据时分开的,我这里的分开是说数据不在同一个页面,但是呢,我们保存的时候在一个文件。
这个时候,我们就使用到了本篇博客中的方法,mate。
我们可以把爬取的一个页面的值传到第二个页面,然后和第二个页面的数据一起保存。
这个方法是我目前学习到的一种,可能后期还会有更好的方法。这个其一,本篇博客的学习,
其二是写入文件的pipline方法有所改变。一开始我们学习的是打开文件写入。也就是写入多少次,打开多少次,这样会影响爬虫写入文件的性能,所以,我们有个本篇的第二种方法,就是爬虫开启,然后我们打开文件,等爬虫结束,我们关闭文件。
本文共计1121个文字,预计阅读时间需要5分钟。
我们接下来说说这个爬虫工具Scrapy及其组成部分。Scrapy + 1. Shell 对象和 Selector 对象。Scrapy Shell 是一个交互式终端,它允许我们与 Scrapy 进行交互。它的作用主要是:
- 可以非常方便地进行调试和测试。- 可以启动 Scrapy Shell。
使用 Scrapy Shell 的命令是:`scrapy shell url`。
如果 URL 有参数,可以使用引号将 URL 包围起来。
我们接着说这个爬虫的工具scrapy
1.shell对象和selector对象
scrapy shell就是一个交互式的终端,作用:可以很好的调试,启动:scrapy shell url。
如果url有参数,用引号把url包起来
2.选择器
selector
xpath
extract:返回unicode字符串
css(此处是css选择器)
re(此处是正则)
在我们爬取数据时,数据时分开的,我这里的分开是说数据不在同一个页面,但是呢,我们保存的时候在一个文件。
这个时候,我们就使用到了本篇博客中的方法,mate。
我们可以把爬取的一个页面的值传到第二个页面,然后和第二个页面的数据一起保存。
这个方法是我目前学习到的一种,可能后期还会有更好的方法。这个其一,本篇博客的学习,
其二是写入文件的pipline方法有所改变。一开始我们学习的是打开文件写入。也就是写入多少次,打开多少次,这样会影响爬虫写入文件的性能,所以,我们有个本篇的第二种方法,就是爬虫开启,然后我们打开文件,等爬虫结束,我们关闭文件。

