ARC-AGI-3 基准测试发布 (2026-03-26)
- 内容介绍
- 文章标签
- 相关推荐
ARC Price 发布了 ARC-AGI-3 基准测试。
image1356×1672 234 KB
ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。
部分前沿模型分数:
| Provider | Model | Score |
|---|---|---|
| Gemini 3.1 Pro Preview | 0.37% | |
| OpenAI | GPT 5.4 (High) | 0.26% |
| Anthropic | Opus 4.6 (Max) | 0.25% |
| xAI | Grok-4.20 (Beta 0309 Reasoning) | 0.00% |
另外看到 Agentica 得分 36.08%
image750×992 87.3 KB
网友解答:--【壹】--:
试用啥?需要这个测试的话可以去关注一下官方 X,帖子里有链接。
--【贰】--:
gork高分低能的本质 真是笑掉大牙了
--【叁】--:
哪里可以试用
--【肆】--:
为什么不敢测国内模型 是不是怕我豆姐
--【伍】--:
agentica是何方神圣
--【陆】--:
IMG_25311206×2622 295 KB我认同这个模型
--【柒】--:
多模态太少了
--【捌】--:
所以这个agentica是啥玩意啊
--【玖】--:
我玩过AGI3,我似乎没能轻松获得满分
--【拾】--:
想看看 豆姐 vs grok
--【拾壹】--:
image2404×218 29.7 KB
不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型
--【拾贰】--:
有点好奇他说人类随手100% 能给我这个人类测试一下吗
ARC Price 发布了 ARC-AGI-3 基准测试。
image1356×1672 234 KB
ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。
部分前沿模型分数:
| Provider | Model | Score |
|---|---|---|
| Gemini 3.1 Pro Preview | 0.37% | |
| OpenAI | GPT 5.4 (High) | 0.26% |
| Anthropic | Opus 4.6 (Max) | 0.25% |
| xAI | Grok-4.20 (Beta 0309 Reasoning) | 0.00% |
另外看到 Agentica 得分 36.08%
image750×992 87.3 KB
网友解答:--【壹】--:
试用啥?需要这个测试的话可以去关注一下官方 X,帖子里有链接。
--【贰】--:
gork高分低能的本质 真是笑掉大牙了
--【叁】--:
哪里可以试用
--【肆】--:
为什么不敢测国内模型 是不是怕我豆姐
--【伍】--:
agentica是何方神圣
--【陆】--:
IMG_25311206×2622 295 KB我认同这个模型
--【柒】--:
多模态太少了
--【捌】--:
所以这个agentica是啥玩意啊
--【玖】--:
我玩过AGI3,我似乎没能轻松获得满分
--【拾】--:
想看看 豆姐 vs grok
--【拾壹】--:
image2404×218 29.7 KB
不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型
--【拾贰】--:
有点好奇他说人类随手100% 能给我这个人类测试一下吗

