如何编写豌豆荚游戏排行榜的长尾词爬虫?

2026-04-06 10:451阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计454个文字,预计阅读时间需要2分钟。

如何编写豌豆荚游戏排行榜的长尾词爬虫?

获取B站游戏排行信息

访问网站:[神箭手云爬虫](http://www.shenjianshou.cn/),直接获取B站游戏排行上的游戏信息。

交流QQ群

对爬虫感兴趣的朋友,可以加入QQ群:342953471,讨论交流。

如何编写豌豆荚游戏排行榜的长尾词爬虫?

代码示例(JavaScript)

javascript// 使用JavaScript编写爬虫代码,抓取B站游戏排行信息

爬取豌豆荚游戏排行榜上的游戏信息,代码可以拷贝到神箭手云爬虫(www.shenjianshou.cn/)上直接跑。对爬虫感兴趣的可以加qq群讨论:342953471。

1.[代码][JavaScript]代码

//使用javascript编写的爬虫源码,用于爬取豌豆荚游戏排行榜(www.wandoujia.com/top/game)上的游戏信息。 //代码粘贴到神箭手云爬虫平台上就可以直接跑了,不需要安装编译环境。要爬取其他网站, //可以更改源码即可。 //代码执行具体步骤请参考: //github.com/ShenJianShou/crawler_samples/blob/master/%E5%A6%82%E4%BD%95%E6%89%A7%E8%A1%8C%E6%A0%B7%E4%BE%8B%E4%BB%A3%E7%A0%81.txt var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["www\\.wandoujia\\.com/apps/.*"], helperUrlRegexes: ["apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空 fields: [ { // 第一个抽取项 name: "title", selector: "//span[contains(@class,'title')]", required: true //是否不能为空 }, { // 第二个抽取项 name: "download", selector: "//i[@itemprop='interactionCount']", required: false //是否不能为空 }, { //第三个抽取项 name:"thumb", selector:"//div[contains(@class,'app-icon')]/img[@itemprop='image']/@src", } ] }; configs.onProcessHelperUrl = function(url, content, site) { var jarr = JSON.parse(content); //发现内容页 for (var i = 0, n = jarr.length; i < n; i++) { var new_url = "www.wandoujia.com/apps/"+jarr[i].packageName; site.addUrl(new_url); } var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7)); var start = currentStart+12; if(start < 100){ site.addUrl("apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start); } return true; } var crawler = new Crawler(configs); crawler.start();

本文共计454个文字,预计阅读时间需要2分钟。

如何编写豌豆荚游戏排行榜的长尾词爬虫?

获取B站游戏排行信息

访问网站:[神箭手云爬虫](http://www.shenjianshou.cn/),直接获取B站游戏排行上的游戏信息。

交流QQ群

对爬虫感兴趣的朋友,可以加入QQ群:342953471,讨论交流。

如何编写豌豆荚游戏排行榜的长尾词爬虫?

代码示例(JavaScript)

javascript// 使用JavaScript编写爬虫代码,抓取B站游戏排行信息

爬取豌豆荚游戏排行榜上的游戏信息,代码可以拷贝到神箭手云爬虫(www.shenjianshou.cn/)上直接跑。对爬虫感兴趣的可以加qq群讨论:342953471。

1.[代码][JavaScript]代码

//使用javascript编写的爬虫源码,用于爬取豌豆荚游戏排行榜(www.wandoujia.com/top/game)上的游戏信息。 //代码粘贴到神箭手云爬虫平台上就可以直接跑了,不需要安装编译环境。要爬取其他网站, //可以更改源码即可。 //代码执行具体步骤请参考: //github.com/ShenJianShou/crawler_samples/blob/master/%E5%A6%82%E4%BD%95%E6%89%A7%E8%A1%8C%E6%A0%B7%E4%BE%8B%E4%BB%A3%E7%A0%81.txt var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["www\\.wandoujia\\.com/apps/.*"], helperUrlRegexes: ["apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空 fields: [ { // 第一个抽取项 name: "title", selector: "//span[contains(@class,'title')]", required: true //是否不能为空 }, { // 第二个抽取项 name: "download", selector: "//i[@itemprop='interactionCount']", required: false //是否不能为空 }, { //第三个抽取项 name:"thumb", selector:"//div[contains(@class,'app-icon')]/img[@itemprop='image']/@src", } ] }; configs.onProcessHelperUrl = function(url, content, site) { var jarr = JSON.parse(content); //发现内容页 for (var i = 0, n = jarr.length; i < n; i++) { var new_url = "www.wandoujia.com/apps/"+jarr[i].packageName; site.addUrl(new_url); } var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7)); var start = currentStart+12; if(start < 100){ site.addUrl("apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start); } return true; } var crawler = new Crawler(configs); crawler.start();