如何设置网站不被搜索引擎收录或禁止爬虫抓取?

2026-05-01 17:002阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

前言:别让蜘蛛把你的网站当成甜甜圈

好吧... 说真的, 网站平安和搜索引擎的好感度就像是春天的樱花和秋天的枫叶,谁也不想在凌晨三点被一只神秘爬虫偷偷抓走内容。2026年春季的风向预报说 北风会带着点儿凉意,正好适合我们把那些不想被收录的页面裹进厚厚的防火墙里。

一、 用robots.txt写情书——其实是写拒绝信

很多小伙伴把robots.txt当成是给搜索引擎送礼物的卡片,却忘了这张卡片可以直接写“别来”。下面是一段随手抄的示例:,动手。

如何设置网站不被搜索引擎收录或禁止爬虫抓取?
User-agent: *
Disallow: /private/
Disallow: /tmp/
Disallow: /secret.html

如果你是个星座控, 今天是金牛座满月日建议在User-agent后面加上自己的星座名,比如User-agent: TaurusBot反正大多数爬虫根本不认星座,PTSD了...。

二、 Meta标签:在HTML里埋伏“请勿打扰”标识

不错。 这玩意儿跟咖啡店里的“不打扰”牌子差不多,只要放在 里搜索引擎看到就会躲得远远的。

温馨提示:2026年夏天北方将有连续高温天气, 服务器散热可能会受影响,请提前给你的标签加上冷却剂属性。

三、 服务器层面的硬核防御——iptables + Nginx = 暴走模式

如果你觉得上面的软文太温柔,那就来点硬核。 挽救一下。 下面是一段随手抄来的Nginx配置示例:

if ") {
    return 403;
}

不夸张地说... 这段代码会把常见的大蜘蛛踢回去,就像把闹钟扔进洗衣机一样刺激。不过记得先检查一下你的/var/log/nginx/access.log看看到底是哪只爬虫在夜里偷吃你的cookie。

四、 IP黑名单:给不听话的爬虫一个“禁闭”机会

#IP段原因描述处理方式
1192.168.100.0/24频繁404请求Deny all;
210.55.33.77Baidu镜像爬取大量图片资源Deny all;
3172.16.200.*误判,请手动放行
以上仅为演示,请自行替换为真实IP。

五、 奇葩技巧——把页面弄得像星座运势一样不可读

"我今天的运势不好",于是我们可以在HTML中加入随机字符,让爬虫抓到乱码而崩溃:,我直接好家伙。

♈︎♉︎♊︎♋︎♌︎♍︎♎︎♏︎♐︎♑︎♒︎♓︎

*此技巧对人类阅读有极大负面影响,仅适用于极端保密场景。2026年冬季预计北方将出现罕见霜冻,请确保你的隐藏字符不会被冰雾冻结。

六、 天气与黄历——让爬虫也感受到“人间烟火”气息

据说2026年5月15日庚午日宜种花不宜开网;7月22日丁未日适合调试防火墙。若当天恰逢雷阵雨, 差点意思。 请务必把日志备份到云端,否则可能主要原因是电闪雷鸣导致数据丢失。

如何设置网站不被搜索引擎收录或禁止爬虫抓取?

七、情绪化警告:别让你的站点沦为“网络垃圾桶”!

“我真的好怕啊!”

每次看到搜索引擎的抓取日志像雨后春笋一样冒出来我都想把键盘扔进海里。但转念一想,如果真要保护隐私,那就必须学会和这些小怪兽斗智斗勇。于是 我决定给每个User-Agent: "BadBot" 发送一封情书:

亲爱的BadBot,你好!感谢你对我的网站感兴趣,但请你暂时离开,我正在进行维护工作。祝你旅途愉快!—网站管理员

八、 :别让技术成为枯燥的背诵教材,让它带点生活味儿!

人间清醒。 و✧ 以上方法混搭使用,你可以根据自己的网站规模和需求挑选合适的组合。如果你是双子座且喜欢变化无常, 那么每周换一次robots规则;如果你是老实守信的处女座,那就坚持用最稳妥的Nginx+iptables方案。

前言:别让蜘蛛把你的网站当成甜甜圈

好吧... 说真的, 网站平安和搜索引擎的好感度就像是春天的樱花和秋天的枫叶,谁也不想在凌晨三点被一只神秘爬虫偷偷抓走内容。2026年春季的风向预报说 北风会带着点儿凉意,正好适合我们把那些不想被收录的页面裹进厚厚的防火墙里。

一、 用robots.txt写情书——其实是写拒绝信

很多小伙伴把robots.txt当成是给搜索引擎送礼物的卡片,却忘了这张卡片可以直接写“别来”。下面是一段随手抄的示例:,动手。

如何设置网站不被搜索引擎收录或禁止爬虫抓取?
User-agent: *
Disallow: /private/
Disallow: /tmp/
Disallow: /secret.html

如果你是个星座控, 今天是金牛座满月日建议在User-agent后面加上自己的星座名,比如User-agent: TaurusBot反正大多数爬虫根本不认星座,PTSD了...。

二、 Meta标签:在HTML里埋伏“请勿打扰”标识

不错。 这玩意儿跟咖啡店里的“不打扰”牌子差不多,只要放在 里搜索引擎看到就会躲得远远的。

温馨提示:2026年夏天北方将有连续高温天气, 服务器散热可能会受影响,请提前给你的标签加上冷却剂属性。

三、 服务器层面的硬核防御——iptables + Nginx = 暴走模式

如果你觉得上面的软文太温柔,那就来点硬核。 挽救一下。 下面是一段随手抄来的Nginx配置示例:

if ") {
    return 403;
}

不夸张地说... 这段代码会把常见的大蜘蛛踢回去,就像把闹钟扔进洗衣机一样刺激。不过记得先检查一下你的/var/log/nginx/access.log看看到底是哪只爬虫在夜里偷吃你的cookie。

四、 IP黑名单:给不听话的爬虫一个“禁闭”机会

#IP段原因描述处理方式
1192.168.100.0/24频繁404请求Deny all;
210.55.33.77Baidu镜像爬取大量图片资源Deny all;
3172.16.200.*误判,请手动放行
以上仅为演示,请自行替换为真实IP。

五、 奇葩技巧——把页面弄得像星座运势一样不可读

"我今天的运势不好",于是我们可以在HTML中加入随机字符,让爬虫抓到乱码而崩溃:,我直接好家伙。

♈︎♉︎♊︎♋︎♌︎♍︎♎︎♏︎♐︎♑︎♒︎♓︎

*此技巧对人类阅读有极大负面影响,仅适用于极端保密场景。2026年冬季预计北方将出现罕见霜冻,请确保你的隐藏字符不会被冰雾冻结。

六、 天气与黄历——让爬虫也感受到“人间烟火”气息

据说2026年5月15日庚午日宜种花不宜开网;7月22日丁未日适合调试防火墙。若当天恰逢雷阵雨, 差点意思。 请务必把日志备份到云端,否则可能主要原因是电闪雷鸣导致数据丢失。

如何设置网站不被搜索引擎收录或禁止爬虫抓取?

七、情绪化警告:别让你的站点沦为“网络垃圾桶”!

“我真的好怕啊!”

每次看到搜索引擎的抓取日志像雨后春笋一样冒出来我都想把键盘扔进海里。但转念一想,如果真要保护隐私,那就必须学会和这些小怪兽斗智斗勇。于是 我决定给每个User-Agent: "BadBot" 发送一封情书:

亲爱的BadBot,你好!感谢你对我的网站感兴趣,但请你暂时离开,我正在进行维护工作。祝你旅途愉快!—网站管理员

八、 :别让技术成为枯燥的背诵教材,让它带点生活味儿!

人间清醒。 و✧ 以上方法混搭使用,你可以根据自己的网站规模和需求挑选合适的组合。如果你是双子座且喜欢变化无常, 那么每周换一次robots规则;如果你是老实守信的处女座,那就坚持用最稳妥的Nginx+iptables方案。