ARC-AGI-3 基准测试发布 (2026-03-26)

2026-04-11 13:581阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

ARC Price 发布了 ARC-AGI-3 基准测试。

image1356×1672 234 KB

ARC-AGI-3 是目前全球唯一尚未饱和的智能体（Agentic）基准测试，旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境，要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分，而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。

部分前沿模型分数：

Provider	Model	Score
Google	Gemini 3.1 Pro Preview	0.37%
OpenAI	GPT 5.4 (High)	0.26%
Anthropic	Opus 4.6 (Max)	0.25%
xAI	Grok-4.20 (Beta 0309 Reasoning)	0.00%

另外看到 Agentica 得分 36.08%

image750×992 87.3 KB

网友解答：

--【壹】--：

试用啥？需要这个测试的话可以去关注一下官方 X，帖子里有链接。

--【贰】--：

gork高分低能的本质真是笑掉大牙了

--【叁】--：

哪里可以试用

--【肆】--：

为什么不敢测国内模型是不是怕我豆姐

--【伍】--：

agentica是何方神圣

--【陆】--：

IMG_25311206×2622 295 KB我认同这个模型

--【柒】--：

多模态太少了

--【捌】--：

所以这个agentica是啥玩意啊

--【玖】--：

我玩过AGI3，我似乎没能轻松获得满分

--【拾】--：

想看看豆姐 vs grok

--【拾壹】--：

image2404×218 29.7 KB

不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型

--【拾贰】--：

有点好奇他说人类随手100% 能给我这个人类测试一下吗

标签：人工智能

问题描述：

ARC Price 发布了 ARC-AGI-3 基准测试。

image1356×1672 234 KB

部分前沿模型分数：

Provider	Model	Score
Google	Gemini 3.1 Pro Preview	0.37%
OpenAI	GPT 5.4 (High)	0.26%
Anthropic	Opus 4.6 (Max)	0.25%
xAI	Grok-4.20 (Beta 0309 Reasoning)	0.00%

另外看到 Agentica 得分 36.08%

image750×992 87.3 KB

网友解答：

--【壹】--：

试用啥？需要这个测试的话可以去关注一下官方 X，帖子里有链接。

--【贰】--：

gork高分低能的本质真是笑掉大牙了

--【叁】--：

哪里可以试用

--【肆】--：

为什么不敢测国内模型是不是怕我豆姐

--【伍】--：

agentica是何方神圣

--【陆】--：

IMG_25311206×2622 295 KB我认同这个模型

--【柒】--：

多模态太少了

--【捌】--：

所以这个agentica是啥玩意啊

--【玖】--：

我玩过AGI3，我似乎没能轻松获得满分

--【拾】--：

想看看豆姐 vs grok

--【拾壹】--：

image2404×218 29.7 KB

不知道为什么glm5一个多模态模型在arc agi 2比不过minimax这纯文本模型

--【拾贰】--：

有点好奇他说人类随手100% 能给我这个人类测试一下吗

标签：人工智能

ARC Price 发布了 ARC-AGI-3 基准测试。

部分前沿模型分数：

另外看到 Agentica 得分 36.08%

相关推荐

ARC Price 发布了 ARC-AGI-3 基准测试。

部分前沿模型分数：

另外看到 Agentica 得分 36.08%

相关推荐