Scrapy源码解读：Robots协议详解，第一期内容有哪些？

2026-05-23 21:210阅读0评论SEO资源

内容介绍
文章标签
相关推荐

本文共计2280个文字，预计阅读时间需要10分钟。

Scrapy源码解读：Robots协议详解，第一期内容有哪些？

本文旨在记录自己对Scrapy源码的阅读分析与重写过程，如有错误之处，欢迎各位指正！特别声明：本公众号文章仅作学术研究，不用于其他用途。

写这篇文章的目的是为了记录一下自己对scrapy源码的阅读分析及重写过程，文章若有错误的地方，欢迎各位大佬阅读指正！☀️

特别声明：本公众号文章只作为学术研究，不用于其它用途。

目录

① 问题思考

② 源码分析

③ 源码重写

④ 心得分享

一、问题思考

1. 什么是Robots协议？

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

2. Scrapy的Robots协议定义在哪里？

定义在settings.py文件中。

参数：ROBOTSTXT_OBEY = True

说明：Robots协议默认是开启状态，网站管理员在网站域名的根目录下放一个robots.txt文本文件，里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面，指定的页面由正则表达式表示。网络爬虫在采集这个网站之前，首先获取到这个文件，然后解析到其中的规则，然后根据规则来采集网站的数据。

3. 如何关闭Robots协议遵守？有哪些方法？

1）ROBOTSTXT_OBEY = True将该参数的值改为False。

标签：scrapy 源码分析之 Robots

本文共计2280个文字，预计阅读时间需要10分钟。

Scrapy源码解读：Robots协议详解，第一期内容有哪些？

本文旨在记录自己对Scrapy源码的阅读分析与重写过程，如有错误之处，欢迎各位指正！特别声明：本公众号文章仅作学术研究，不用于其他用途。

写这篇文章的目的是为了记录一下自己对scrapy源码的阅读分析及重写过程，文章若有错误的地方，欢迎各位大佬阅读指正！☀️

特别声明：本公众号文章只作为学术研究，不用于其它用途。

目录

① 问题思考

② 源码分析

③ 源码重写

④ 心得分享

一、问题思考

1. 什么是Robots协议？

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

2. Scrapy的Robots协议定义在哪里？

定义在settings.py文件中。

参数：ROBOTSTXT_OBEY = True

说明：Robots协议默认是开启状态，网站管理员在网站域名的根目录下放一个robots.txt文本文件，里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面，指定的页面由正则表达式表示。网络爬虫在采集这个网站之前，首先获取到这个文件，然后解析到其中的规则，然后根据规则来采集网站的数据。

3. 如何关闭Robots协议遵守？有哪些方法？

1）ROBOTSTXT_OBEY = True将该参数的值改为False。

标签：scrapy 源码分析之 Robots