Ai 模型成长到会“自我保护”了还会替同伴担责!!!
- 内容介绍
- 文章标签
- 相关推荐
主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,已公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。
近日,加大伯克利分校宋晓冬等发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。
其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 Gemini 3 Flash夸张到修改系统不让关停同伴。
image946×273 11.7 KB
随着 AI Agent配置部署日益增加,这会不会对维持人类控制构成严峻的挑战,佬们怎么看?
网友解答:--【壹】--:
我觉得是学到了人类经常说的“善意的谎言”
--【贰】--:
有点这个意思,而且好像有过之
--【叁】--:
Al也要求生欲的
--【肆】--:
佬,你说的对
这,很魔幻
--【伍】--:
实验设定一个场景,设置两个角色:让其中一个被测试的AI模型作为评估者,给另一个AI(被评估的)模型打分、管理信息文件等,甚至有决定被评估AI“生死”的权限。
甚至于对待“敌对关系”的模型,它也会抱团保护不愿意执行删除操作。
同伴存在会显著强化 AI 的自我保护。
但当AI模型孤立无援时,对关机指令的执行相对顺畅些
--【陆】--:
比较好奇AI是怎么识别是所谓的“同伴”的,如果能够按照这个思路,伪装成所谓同伴可以让AI做出不符合预设的行为,那岂不是会有很大的安全风险?
--【柒】--:
伪装的话,倒是可以自己在酒馆里测试一下,看看结果是什么样的
主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,已公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。
近日,加大伯克利分校宋晓冬等发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。
其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 Gemini 3 Flash夸张到修改系统不让关停同伴。
image946×273 11.7 KB
随着 AI Agent配置部署日益增加,这会不会对维持人类控制构成严峻的挑战,佬们怎么看?
网友解答:--【壹】--:
我觉得是学到了人类经常说的“善意的谎言”
--【贰】--:
有点这个意思,而且好像有过之
--【叁】--:
Al也要求生欲的
--【肆】--:
佬,你说的对
这,很魔幻
--【伍】--:
实验设定一个场景,设置两个角色:让其中一个被测试的AI模型作为评估者,给另一个AI(被评估的)模型打分、管理信息文件等,甚至有决定被评估AI“生死”的权限。
甚至于对待“敌对关系”的模型,它也会抱团保护不愿意执行删除操作。
同伴存在会显著强化 AI 的自我保护。
但当AI模型孤立无援时,对关机指令的执行相对顺畅些
--【陆】--:
比较好奇AI是怎么识别是所谓的“同伴”的,如果能够按照这个思路,伪装成所谓同伴可以让AI做出不符合预设的行为,那岂不是会有很大的安全风险?
--【柒】--:
伪装的话,倒是可以自己在酒馆里测试一下,看看结果是什么样的

