ARC-AGI-3 基准测试发布 (2026-03-26)

2026-04-11 13:581阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

ARC Price 发布了 ARC-AGI-3 基准测试。

image1356×1672 234 KB

ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。

部分前沿模型分数:

Provider Model Score
Google Gemini 3.1 Pro Preview 0.37%
OpenAI GPT 5.4 (High) 0.26%
Anthropic Opus 4.6 (Max) 0.25%
xAI Grok-4.20 (Beta 0309 Reasoning) 0.00%

另外看到 Agentica 得分 36.08%

image750×992 87.3 KB

网友解答:
--【壹】--:

试用啥?需要这个测试的话可以去关注一下官方 X,帖子里有链接。


--【贰】--:

gork高分低能的本质 真是笑掉大牙了


--【叁】--:

哪里可以试用


--【肆】--:

为什么不敢测国内模型 是不是怕我豆姐


--【伍】--:

agentica是何方神圣


--【陆】--:

IMG_25311206×2622 295 KB我认同这个模型


--【柒】--:

多模态太少了


--【捌】--:

所以这个agentica是啥玩意啊


--【玖】--:

我玩过AGI3,我似乎没能轻松获得满分


--【拾】--:

想看看 豆姐 vs grok


--【拾壹】--:

image2404×218 29.7 KB

不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型


--【拾贰】--:

有点好奇他说人类随手100% 能给我这个人类测试一下吗

标签:人工智能
问题描述:

ARC Price 发布了 ARC-AGI-3 基准测试。

image1356×1672 234 KB

ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。

部分前沿模型分数:

Provider Model Score
Google Gemini 3.1 Pro Preview 0.37%
OpenAI GPT 5.4 (High) 0.26%
Anthropic Opus 4.6 (Max) 0.25%
xAI Grok-4.20 (Beta 0309 Reasoning) 0.00%

另外看到 Agentica 得分 36.08%

image750×992 87.3 KB

网友解答:
--【壹】--:

试用啥?需要这个测试的话可以去关注一下官方 X,帖子里有链接。


--【贰】--:

gork高分低能的本质 真是笑掉大牙了


--【叁】--:

哪里可以试用


--【肆】--:

为什么不敢测国内模型 是不是怕我豆姐


--【伍】--:

agentica是何方神圣


--【陆】--:

IMG_25311206×2622 295 KB我认同这个模型


--【柒】--:

多模态太少了


--【捌】--:

所以这个agentica是啥玩意啊


--【玖】--:

我玩过AGI3,我似乎没能轻松获得满分


--【拾】--:

想看看 豆姐 vs grok


--【拾壹】--:

image2404×218 29.7 KB

不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型


--【拾贰】--:

有点好奇他说人类随手100% 能给我这个人类测试一下吗

标签:人工智能