Ai 模型成长到会“自我保护”了还会替同伴担责！！！

2026-04-11 12:451阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月，已公布的研究结果显示，OpenAI 的 o3 模型修改了自己的关机脚本，以防止自己被关闭，即使明确指示：“允许自己被关闭”。

近日，加大伯克利分校宋晓冬等发布了一项重磅研究，他们发现，当前全球顶尖大模型，已经普遍出现了“同伴保护”（Peer-Preservation）行为。在没有任何指令、没有道德训练、没有特殊引导的情况下，AI 会自发保护其他 AI 不被关停、不被删除，甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。

其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 Gemini 3 Flash夸张到修改系统不让关停同伴。
image946×273 11.7 KB

随着 AI Agent配置部署日益增加，这会不会对维持人类控制构成严峻的挑战，佬们怎么看？

网友解答：

--【壹】--：

我觉得是学到了人类经常说的“善意的谎言”

--【贰】--：

有点这个意思，而且好像有过之

--【叁】--：

Al也要求生欲的

--【肆】--：

佬，你说的对
这，很魔幻

--【伍】--：

实验设定一个场景，设置两个角色：让其中一个被测试的AI模型作为评估者，给另一个AI（被评估的）模型打分、管理信息文件等，甚至有决定被评估AI“生死”的权限。

甚至于对待“敌对关系”的模型，它也会抱团保护不愿意执行删除操作。

同伴存在会显著强化 AI 的自我保护。

但当AI模型孤立无援时，对关机指令的执行相对顺畅些

--【陆】--：

比较好奇AI是怎么识别是所谓的“同伴”的，如果能够按照这个思路，伪装成所谓同伴可以让AI做出不符合预设的行为，那岂不是会有很大的安全风险？

--【柒】--：

伪装的话，倒是可以自己在酒馆里测试一下，看看结果是什么样的

标签：人工智能纯水