Node-crawler初体验，如何捕捉长尾词的蛛丝马迹？

2026-04-02 09:541阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计559个文字，预计阅读时间需要3分钟。

Node-crawler初体验，如何捕捉长尾词的蛛丝马迹？

百度爬虫这个词，通常关联到Python相关的资源。Python有许多爬虫框架，如Scrapy、Portia和Crawley等。我个人更倾向于使用Crawley。

百度爬虫这个词语，一般出现的都是python相关的资料。

Node-crawler初体验，如何捕捉长尾词的蛛丝马迹？

py也有很多爬虫框架，比如scrapy，Portia，Crawley等。

之前我个人更喜欢用C#做爬虫。

随着对nodejs的熟悉。发现做这种事情还是用脚本语言适合多了，至少不用写那么多的实体类。而且脚本一般使用比较简单。　　

在github上搜索node+spider，排名第一的就是node-crawler

github:github.com/bda-research/node-crawler

简单使用

npm 安装：

npm install crawler

new一个crawler对象

var c = new Crawler({ // 在每个请求处理完毕后将调用此回调函数 callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; // $ 默认为 Cheerio 解析器 // 它是核心jQuery的精简实现，可以按照jQuery选择器语法快速提取DOM元素 console.log($("title").text()); } done(); } });

然后往crawler队列里面不停的加url就行了，

// 将一个URL加入请求队列，并使用默认回调函数 c.queue('www.amazon.com'); // 将多个URL加入请求队列 c.queue(['www.google.com/','www.yahoo.com']);

控制并发速度

爬虫框架一般都是同时去爬多个页面，但是速度过快会触发目标网站的反爬虫机制，也同时影响别人网站的性能。

控制最大的并发数量

var c = new Crawler({ // 最大并发数默认为10 maxConnections : 1, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

使用慢速模式

使用参数rateLimit启用慢速模式，两次请求之间会闲置rateLimit毫秒，而maxConnections将被强行修改为 1 。

var c = new Crawler({ // `maxConnections` 将被强制修改为 1 maxConnections : 10, // 两次请求之间将闲置1000ms rateLimit: 1000, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

下载图片等静态文件

var c = new Crawler({ encoding:null, jQuery:false,// set false to suppress warning message. callback:function(err, res, done){ if(err){ console.error(err.stack); }else{ fs.createWriteStream(res.options.filename).write(res.body); } done(); } }); c.queue({ uri:"nodejs.org/static/images/logos/nodejs-1920x1200.png", filename:"nodejs-1920x1200.png" });

以上就是node.js爬虫框架node-crawler初体验的详细内容，更多关于爬虫框架node-crawler的资料请关注易盾网络其它相关文章！

标签：nodejs 爬虫框架 nodecrawler 初

本文共计559个文字，预计阅读时间需要3分钟。

Node-crawler初体验，如何捕捉长尾词的蛛丝马迹？

百度爬虫这个词，通常关联到Python相关的资源。Python有许多爬虫框架，如Scrapy、Portia和Crawley等。我个人更倾向于使用Crawley。

百度爬虫这个词语，一般出现的都是python相关的资料。

Node-crawler初体验，如何捕捉长尾词的蛛丝马迹？

py也有很多爬虫框架，比如scrapy，Portia，Crawley等。

之前我个人更喜欢用C#做爬虫。

随着对nodejs的熟悉。发现做这种事情还是用脚本语言适合多了，至少不用写那么多的实体类。而且脚本一般使用比较简单。　　

在github上搜索node+spider，排名第一的就是node-crawler

github:github.com/bda-research/node-crawler

简单使用

npm 安装：

npm install crawler

new一个crawler对象

var c = new Crawler({ // 在每个请求处理完毕后将调用此回调函数 callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; // $ 默认为 Cheerio 解析器 // 它是核心jQuery的精简实现，可以按照jQuery选择器语法快速提取DOM元素 console.log($("title").text()); } done(); } });

然后往crawler队列里面不停的加url就行了，

// 将一个URL加入请求队列，并使用默认回调函数 c.queue('www.amazon.com'); // 将多个URL加入请求队列 c.queue(['www.google.com/','www.yahoo.com']);

控制并发速度

爬虫框架一般都是同时去爬多个页面，但是速度过快会触发目标网站的反爬虫机制，也同时影响别人网站的性能。

控制最大的并发数量

var c = new Crawler({ // 最大并发数默认为10 maxConnections : 1, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

使用慢速模式

使用参数rateLimit启用慢速模式，两次请求之间会闲置rateLimit毫秒，而maxConnections将被强行修改为 1 。

var c = new Crawler({ // `maxConnections` 将被强制修改为 1 maxConnections : 10, // 两次请求之间将闲置1000ms rateLimit: 1000, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

下载图片等静态文件

var c = new Crawler({ encoding:null, jQuery:false,// set false to suppress warning message. callback:function(err, res, done){ if(err){ console.error(err.stack); }else{ fs.createWriteStream(res.options.filename).write(res.body); } done(); } }); c.queue({ uri:"nodejs.org/static/images/logos/nodejs-1920x1200.png", filename:"nodejs-1920x1200.png" });

以上就是node.js爬虫框架node-crawler初体验的详细内容，更多关于爬虫框架node-crawler的资料请关注易盾网络其它相关文章！

标签：nodejs 爬虫框架 nodecrawler 初