机器人协议:互联网爬虫的神秘守则是如何制定的?
- 内容介绍
- 文章标签
- 相关推荐
嘿!你有没有想过每当你打开搜索后来啊页面时那些背后默默抓取网页内容的小程序到底怎么做到既快速又礼貌呢?
A 吗?没错,就是我们常说的“机器人协议”, 当你.… 或者更亲切一点叫做 robots.txt。
C 就是站点管理员用来和爬虫打招呼的一张小纸条。它告诉这些程序哪些地方可以走路,哪些地方要躲着走。
D 看似简单,却把整个互联网抓取生态绑成了一条共同遵守的准则。
它到底是什么?
极度舒适。 E 它其实是一段纯文本文件。放在网站根目录下 用最原始的格式写成:
User-agent:
Disallow:
M 嗯,说起来挺老套,但这段代码就像是给爬虫发的一封“请勿进”的邀请函,说句实话…。
N 哦,你以为这只是一个玩笑?其实大多数主流搜索引擎,比如 GoogleBot、 白嫖。 BingBot 和百度蜘蛛,都自觉遵守它。
P 咱就是说 它像一张通行证,只要你放上这个文件,一旦被发现,你就能得到爬虫们的尊重。
为什么要这么做?
T 主要原因是如果没有规则, 一大堆爬虫会无差别地冲进服务器,把资源抢光,就像连锁超市被抢劫一样,还行。。
S 它能帮你减少服务器压力,让合法访客和搜索引擎都能更流畅地浏览页面,对吧?。
L 当站长们把敏感数据隐藏起来时也能让这些信息不会被随便抓走。
核心指令拆解
嘿!你有没有想过每当你打开搜索后来啊页面时那些背后默默抓取网页内容的小程序到底怎么做到既快速又礼貌呢?
A 吗?没错,就是我们常说的“机器人协议”, 当你.… 或者更亲切一点叫做 robots.txt。
C 就是站点管理员用来和爬虫打招呼的一张小纸条。它告诉这些程序哪些地方可以走路,哪些地方要躲着走。
D 看似简单,却把整个互联网抓取生态绑成了一条共同遵守的准则。
它到底是什么?
极度舒适。 E 它其实是一段纯文本文件。放在网站根目录下 用最原始的格式写成:
User-agent:
Disallow:
M 嗯,说起来挺老套,但这段代码就像是给爬虫发的一封“请勿进”的邀请函,说句实话…。
N 哦,你以为这只是一个玩笑?其实大多数主流搜索引擎,比如 GoogleBot、 白嫖。 BingBot 和百度蜘蛛,都自觉遵守它。
P 咱就是说 它像一张通行证,只要你放上这个文件,一旦被发现,你就能得到爬虫们的尊重。
为什么要这么做?
T 主要原因是如果没有规则, 一大堆爬虫会无差别地冲进服务器,把资源抢光,就像连锁超市被抢劫一样,还行。。
S 它能帮你减少服务器压力,让合法访客和搜索引擎都能更流畅地浏览页面,对吧?。
L 当站长们把敏感数据隐藏起来时也能让这些信息不会被随便抓走。

