Scrapy网络爬虫中LinkExtractor提取链接的第六部分,如何深入掌握?
- 内容介绍
- 文章标签
- 相关推荐
本文共计769个文字,预计阅读时间需要4分钟。
使用LinkExtractor提取链接:
1.导入LinkExtractor
2.创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,这里传递给restrict_css一个CSS选择器表达式
描述:提取下一页链接及链接地址用LinkExtractor提取链接
1.导入LinkExtractor
2.创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,这里传递给restrict_css参数一个CSS选择器表达式。它描述出下一页链接所在的区域(在li.next下)。
3.调用LinkExtractor对象的extract_links方法传入一个Response对象,该方法依据创建对象时所描述的提取规则,在Response对象所包含的页面中提取链接,最终返回一个列表,其中的每一个元素都是一个Link对象,即提取到的一个链接
4.用links[0]获取Link对象,用其构造Request对象并提交。
本文共计769个文字,预计阅读时间需要4分钟。
使用LinkExtractor提取链接:
1.导入LinkExtractor
2.创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,这里传递给restrict_css一个CSS选择器表达式
描述:提取下一页链接及链接地址用LinkExtractor提取链接
1.导入LinkExtractor
2.创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,这里传递给restrict_css参数一个CSS选择器表达式。它描述出下一页链接所在的区域(在li.next下)。
3.调用LinkExtractor对象的extract_links方法传入一个Response对象,该方法依据创建对象时所描述的提取规则,在Response对象所包含的页面中提取链接,最终返回一个列表,其中的每一个元素都是一个Link对象,即提取到的一个链接
4.用links[0]获取Link对象,用其构造Request对象并提交。

