如何使用Snoopy类进行长尾关键词抓取案例分析?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1184个文字,预计阅读时间需要5分钟。
Snoopy类是PHP中用于获取网页内容的工具。使用fetchlinks可以直接提取页面上的所有链接,而使用fetchtext则可以获取页面的所有文本信息(内部还使用正则表达式进行进一步处理)。此外,Snoopy还提供更多功能,例如模拟表单提交等。
php的Snoopy类
获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等。
使用方法:
1、先下载Snoopy类,下载地址:sourceforge.net/projects/snoopy/
2、先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息
示例:
include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
它并没有提供获取网页中所有图片地址的方法,自己有个需求是要获取一个页面中所有文章列表中图片地址。然后自己就写了一个,主要还是正则那里匹配重要。
本文共计1184个文字,预计阅读时间需要5分钟。
Snoopy类是PHP中用于获取网页内容的工具。使用fetchlinks可以直接提取页面上的所有链接,而使用fetchtext则可以获取页面的所有文本信息(内部还使用正则表达式进行进一步处理)。此外,Snoopy还提供更多功能,例如模拟表单提交等。
php的Snoopy类
获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等。
使用方法:
1、先下载Snoopy类,下载地址:sourceforge.net/projects/snoopy/
2、先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息
示例:
include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
它并没有提供获取网页中所有图片地址的方法,自己有个需求是要获取一个页面中所有文章列表中图片地址。然后自己就写了一个,主要还是正则那里匹配重要。

