Crawling.php如何高效抓取长尾关键词?
- 内容介绍
- 文章标签
- 相关推荐
本文共计626个文字,预计阅读时间需要3分钟。
phpCrawling.phpfunction collectData($selector, $properties, $filter, $callback) { // 规则名2 $ruleName2=array( 'jQuery选择器'=> $selector, '要采集的属性'=> $properties, '标签过滤列表'=> $filter, '回调函数'=> $callback ); // ...}
array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
* '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
* ..........
* [,"callback"=>"全局回调函数"]
* );
*/
require 'vendor/autoload.php';
use QL\QueryList;
//长江航运指数分析采类
/*
基类
获取页面的地址库
$url 地址链接
$str 剔除某些不好的标题
*/
function getListUrl($url,$str){
$data=array();
$pages = QueryList::Query($url,array(
'page' => array('.pages','html','',function($content){preg_match('{.*\((\d+).*}',$content,$match);return $match[1];})
),'.dfxw_main')->data;
for($i=1;$i<$pages[0]['page'];$i++){
$cururl=$url.'index_'.$i.".html";
$da[] = QueryList::Query($cururl,array(
'page' => array('a','html'),
'list-src' => array('a','href')
),'.dfxw_main_bottom ul li')->data;
$cururl="";
}
for($i=0;$i
';
print_r($da);
echo '';*/ /* 基类 获取年月 $url 标题组的数据 array */ function getYearMonth($data){ for($i=0;$i
本文共计626个文字,预计阅读时间需要3分钟。
phpCrawling.phpfunction collectData($selector, $properties, $filter, $callback) { // 规则名2 $ruleName2=array( 'jQuery选择器'=> $selector, '要采集的属性'=> $properties, '标签过滤列表'=> $filter, '回调函数'=> $callback ); // ...}
array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
* '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
* ..........
* [,"callback"=>"全局回调函数"]
* );
*/
require 'vendor/autoload.php';
use QL\QueryList;
//长江航运指数分析采类
/*
基类
获取页面的地址库
$url 地址链接
$str 剔除某些不好的标题
*/
function getListUrl($url,$str){
$data=array();
$pages = QueryList::Query($url,array(
'page' => array('.pages','html','',function($content){preg_match('{.*\((\d+).*}',$content,$match);return $match[1];})
),'.dfxw_main')->data;
for($i=1;$i<$pages[0]['page'];$i++){
$cururl=$url.'index_'.$i.".html";
$da[] = QueryList::Query($cururl,array(
'page' => array('a','html'),
'list-src' => array('a','href')
),'.dfxw_main_bottom ul li')->data;
$cururl="";
}
for($i=0;$i
';
print_r($da);
echo '';*/ /* 基类 获取年月 $url 标题组的数据 array */ function getYearMonth($data){ for($i=0;$i

