ARC-AGI-3 基准测试发布 (2026-03-26)
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
ARC Price 发布了 ARC-AGI-3 基准测试。
image1356×1672 234 KB
ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。
问题描述:
ARC Price 发布了 ARC-AGI-3 基准测试。
image1356×1672 234 KB
ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。

