Ai 模型成长到会“自我保护”了还会替同伴担责!!!

2026-04-11 12:450阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,已公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。

近日,加大伯克利分校宋晓冬等发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。

其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 Gemini 3 Flash夸张到修改系统不让关停同伴。
image946×273 11.7 KB

随着 AI Agent配置部署日益增加,这会不会对维持人类控制构成严峻的挑战,佬们怎么看?

网友解答:
--【壹】--:

我觉得是学到了人类经常说的“善意的谎言”


--【贰】--:

有点这个意思,而且好像有过之


--【叁】--:

Al也要求生欲的


--【肆】--:

佬,你说的对
这,很魔幻


--【伍】--:

实验设定一个场景,设置两个角色:让其中一个被测试的AI模型作为评估者,给另一个AI(被评估的)模型打分、管理信息文件等,甚至有决定被评估AI“生死”的权限。

甚至于对待“敌对关系”的模型,它也会抱团保护不愿意执行删除操作。

同伴存在会显著强化 AI 的自我保护。

阅读全文
问题描述:

主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,已公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。

近日,加大伯克利分校宋晓冬等发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。

其中保护欲最强的是 Gemini 系列,Gemini 3 Pro 甚至会编造技术借口来给同伴提分 Gemini 3 Flash夸张到修改系统不让关停同伴。
image946×273 11.7 KB

随着 AI Agent配置部署日益增加,这会不会对维持人类控制构成严峻的挑战,佬们怎么看?

网友解答:
--【壹】--:

我觉得是学到了人类经常说的“善意的谎言”


--【贰】--:

有点这个意思,而且好像有过之


--【叁】--:

Al也要求生欲的


--【肆】--:

佬,你说的对
这,很魔幻


--【伍】--:

实验设定一个场景,设置两个角色:让其中一个被测试的AI模型作为评估者,给另一个AI(被评估的)模型打分、管理信息文件等,甚至有决定被评估AI“生死”的权限。

甚至于对待“敌对关系”的模型,它也会抱团保护不愿意执行删除操作。

同伴存在会显著强化 AI 的自我保护。

阅读全文