Node-crawler初体验,如何捕捉长尾词的蛛丝马迹?

2026-04-02 09:541阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计559个文字,预计阅读时间需要3分钟。

Node-crawler初体验,如何捕捉长尾词的蛛丝马迹?

百度爬虫这个词,通常关联到Python相关的资源。Python有许多爬虫框架,如Scrapy、Portia和Crawley等。我个人更倾向于使用Crawley。

百度爬虫这个词语,一般出现的都是python相关的资料。

Node-crawler初体验,如何捕捉长尾词的蛛丝马迹?

py也有很多爬虫框架,比如scrapy,Portia,Crawley等。

之前我个人更喜欢用C#做爬虫。

随着对nodejs的熟悉。发现做这种事情还是用脚本语言适合多了,至少不用写那么多的实体类。而且脚本一般使用比较简单。  

在github上搜索node+spider,排名第一的就是node-crawler

github:github.com/bda-research/node-crawler

简单使用

npm 安装:

npm install crawler

new一个crawler对象

var c = new Crawler({ // 在每个请求处理完毕后将调用此回调函数 callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; // $ 默认为 Cheerio 解析器 // 它是核心jQuery的精简实现,可以按照jQuery选择器语法快速提取DOM元素 console.log($("title").text()); } done(); } });

然后往crawler队列里面不停的加url就行了,

// 将一个URL加入请求队列,并使用默认回调函数 c.queue('www.amazon.com'); // 将多个URL加入请求队列 c.queue(['www.google.com/','www.yahoo.com']);

控制并发速度

爬虫框架一般都是同时去爬多个页面,但是速度过快会触发目标网站的反爬虫机制,也同时影响别人网站的性能。

控制最大的并发数量

var c = new Crawler({ // 最大并发数默认为10 maxConnections : 1, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

使用慢速模式

使用参数rateLimit启用慢速模式,两次请求之间会闲置rateLimit毫秒,而maxConnections将被强行修改为 1 。

var c = new Crawler({ // `maxConnections` 将被强制修改为 1 maxConnections : 10, // 两次请求之间将闲置1000ms rateLimit: 1000, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

下载图片等静态文件

var c = new Crawler({ encoding:null, jQuery:false,// set false to suppress warning message. callback:function(err, res, done){ if(err){ console.error(err.stack); }else{ fs.createWriteStream(res.options.filename).write(res.body); } done(); } }); c.queue({ uri:"nodejs.org/static/images/logos/nodejs-1920x1200.png", filename:"nodejs-1920x1200.png" });

以上就是node.js爬虫框架node-crawler初体验的详细内容,更多关于爬虫框架node-crawler的资料请关注易盾网络其它相关文章!

本文共计559个文字,预计阅读时间需要3分钟。

Node-crawler初体验,如何捕捉长尾词的蛛丝马迹?

百度爬虫这个词,通常关联到Python相关的资源。Python有许多爬虫框架,如Scrapy、Portia和Crawley等。我个人更倾向于使用Crawley。

百度爬虫这个词语,一般出现的都是python相关的资料。

Node-crawler初体验,如何捕捉长尾词的蛛丝马迹?

py也有很多爬虫框架,比如scrapy,Portia,Crawley等。

之前我个人更喜欢用C#做爬虫。

随着对nodejs的熟悉。发现做这种事情还是用脚本语言适合多了,至少不用写那么多的实体类。而且脚本一般使用比较简单。  

在github上搜索node+spider,排名第一的就是node-crawler

github:github.com/bda-research/node-crawler

简单使用

npm 安装:

npm install crawler

new一个crawler对象

var c = new Crawler({ // 在每个请求处理完毕后将调用此回调函数 callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; // $ 默认为 Cheerio 解析器 // 它是核心jQuery的精简实现,可以按照jQuery选择器语法快速提取DOM元素 console.log($("title").text()); } done(); } });

然后往crawler队列里面不停的加url就行了,

// 将一个URL加入请求队列,并使用默认回调函数 c.queue('www.amazon.com'); // 将多个URL加入请求队列 c.queue(['www.google.com/','www.yahoo.com']);

控制并发速度

爬虫框架一般都是同时去爬多个页面,但是速度过快会触发目标网站的反爬虫机制,也同时影响别人网站的性能。

控制最大的并发数量

var c = new Crawler({ // 最大并发数默认为10 maxConnections : 1, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

使用慢速模式

使用参数rateLimit启用慢速模式,两次请求之间会闲置rateLimit毫秒,而maxConnections将被强行修改为 1 。

var c = new Crawler({ // `maxConnections` 将被强制修改为 1 maxConnections : 10, // 两次请求之间将闲置1000ms rateLimit: 1000, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });

下载图片等静态文件

var c = new Crawler({ encoding:null, jQuery:false,// set false to suppress warning message. callback:function(err, res, done){ if(err){ console.error(err.stack); }else{ fs.createWriteStream(res.options.filename).write(res.body); } done(); } }); c.queue({ uri:"nodejs.org/static/images/logos/nodejs-1920x1200.png", filename:"nodejs-1920x1200.png" });

以上就是node.js爬虫框架node-crawler初体验的详细内容,更多关于爬虫框架node-crawler的资料请关注易盾网络其它相关文章!