Scrapy源码解读:Robots协议详解,第一期内容有哪些?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2280个文字,预计阅读时间需要10分钟。
本文旨在记录自己对Scrapy源码的阅读分析与重写过程,如有错误之处,欢迎各位指正!特别声明:本公众号文章仅作学术研究,不用于其他用途。
写这篇文章的目的是为了记录一下自己对scrapy源码的阅读分析及重写过程,文章若有错误的地方,欢迎各位大佬阅读指正!☀️
特别声明:本公众号文章只作为学术研究,不用于其它用途。
目录
① 问题思考
② 源码分析
③ 源码重写
④ 心得分享
一、问题思考
1. 什么是Robots协议?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
2. Scrapy的Robots协议定义在哪里?
定义在settings.py文件中。
参数:ROBOTSTXT_OBEY = True
说明:Robots协议默认是开启状态,网站管理员在网站域名的根目录下放一个robots.txt文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
3. 如何关闭Robots协议遵守?有哪些方法?
1)ROBOTSTXT_OBEY = True将该参数的值改为False。
本文共计2280个文字,预计阅读时间需要10分钟。
本文旨在记录自己对Scrapy源码的阅读分析与重写过程,如有错误之处,欢迎各位指正!特别声明:本公众号文章仅作学术研究,不用于其他用途。
写这篇文章的目的是为了记录一下自己对scrapy源码的阅读分析及重写过程,文章若有错误的地方,欢迎各位大佬阅读指正!☀️
特别声明:本公众号文章只作为学术研究,不用于其它用途。
目录
① 问题思考
② 源码分析
③ 源码重写
④ 心得分享
一、问题思考
1. 什么是Robots协议?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
2. Scrapy的Robots协议定义在哪里?
定义在settings.py文件中。
参数:ROBOTSTXT_OBEY = True
说明:Robots协议默认是开启状态,网站管理员在网站域名的根目录下放一个robots.txt文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
3. 如何关闭Robots协议遵守?有哪些方法?
1)ROBOTSTXT_OBEY = True将该参数的值改为False。

