【做题王测试】主流AI(SoTA)算法、推理能力测试

2026-04-29 10:052阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)

所有模型的Prompt均相同,仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh​在两次不同模型来源的测试中均未能AC​

AI OJ 得分 思考时间(min)
Deepseek v3.2 专家模式 CoT循环 N/A
Deepseek v4 专家模式 TLE 60
Deepseek-v4-pro-MAX(API) AC ~30
豆包Web专家模式 RE ~10
Qwen-3.6-Plus 思考 WA ~20
Qwen-3.6-Max-Preview 思考 TLE ~20
Qwen-3.6-Plus(API) WA ~120
Qwen-3.6-Max-Preview(API) 爆上下文 N/A
Kimi2.6(Web) 无输出 N/A
Minimax2.7 无输出 N/A
GLM-5.1(API) AC ~120
Kimi2.6(API) AC ~120
GPT-5.5-Thinking(Extended) AC 7
GPT-5.5-Thinking(Heavy) AC 9
GPT-5.5-Pro Extended AC ~25
GPT-5.5-xhigh TLE 30~60
GPT-5.4-Thinking(Extended) TLE 101
GPT-5.4-Thinking(Heavy) AC ~60
GPT-5.4-Pro Standard AC ~60
(New?)GPT-5.4-Pro Standard AC ~20
GPT-5.4-Pro Extended AC ~60
GPT-5.4-high AC ~20
GPT-5.4-xhigh AC ~30
Gemini-3.1-Pro TLE ~60
Gemini-3.1-Pro-Deepthink AC ~60
Gemini-3.1-Pro(API) WA ~120
Claude-Opus-4.7-Max(API) AC ~100
Grok-4.2-Heavy RE 12

4.20 更新

juice值1718×852 65 KB

根据我多次测试,修改之前错误的juice值:(感谢@lueluelue佬提供的juice值)

gpt 5.4-high: 128 → 96
gpt 5.4-xhigh: 768 → 512

有趣的是,虽然gpt 5.4-high和gpt-5.4-thinking-extended的juice值都是96,但是gpt 5.4-high可以AC黑题,gpt-5.4-thinking-extended却无法AC


4.21 更新

笔者低估了Claude的算法能力,没想到Opus 4.7能够AC洛谷黑题了啊…...(之前Opus 4.6连紫题都做不对)

"国产之光"GLM 5.1在思考两小时、消耗10,000,000 tokens后, 终于AC了这道题目! 是目前第一个,也是唯一一个AC这道黑题的国模.

4.22 更新

在提醒过TLE后, Kimi2.6(API)成功AC! 是目前第二个能够AC这道题目的国模
Qwen3.6-plus和Qwen3.6-max-preview无法AC
Gemini-3.1-Pro-Preview无法AC
Grok Heavy纯来玩儿的. 只想了12分钟(6+6), 经过两次提示仍未AC

4.24 更新

更新GPT5.5和DeepseekV4的测试数据

TODO

  • 测试Kimi2.6(API)
  • 测试Qwen3.6-plus(API)
  • 测试Qwen3.6-max-preview(API)
  • 测试Gemini-3.1-Pro-Preview(API)
  • 测试Grok-4.2-Heavy(娱乐)
  • 测试Deepseek V4
  • 测试GPT5.5系列

附录

AI生成的原始代码

github.com

GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark

A simple benchmark

lueluelue佬的juice值表格

github.com

GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice

通过在 GitHub 上创建帐户来为 lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice 开发做出贡献。

个人暴论

《Scaling is All you need》

不论是GPT、opus,还是glm、kimi. 只要"规模"能上去,使劲烧tokens,就能AC黑题.
这就是API比web强的原因. 思维强度高,上下文长,工具用得多,token烧得快。模型能力自然就上去了

网友解答:
--【壹】--:

(才反应过来是lulu佬!lulu佬是我的juice值启蒙!), 感谢大佬反馈, 这可能只是一个灰度测试的快照模型,说不定GPT5.5很快就会发布了!

还有,这几天我对大部分主流AI进行了测试. Kimi和GLM的表现非常惊艳!Qwen不仅贵(Qwen3.6max和plus俩兄弟烧了130¥),表现也不佳. 另外,期待一手Deepseek v4!


--【贰】--:

佬,这两天gpt 5.4 pro更新了,推理能力变差了但是速度变快了,试试看


--【叁】--:

看了一下,怎么GPT测试都是在网页端的,

还有真API调用(做题)应该用Cherry,其他第三方工具调用,而不是Codex,

Coding工具里面会有很多无用的前置提示词


--【肆】--:

终于看到客观的评价了,每次看到某些人把claude吹成神真绷不住了,实际就是纯纯文科生,opus 4.6数学能力连5.4 mini都不如


--【伍】--:

佬,我错怪Claude了. Claude Opus 4.7 Max把这道题给AC了


--【陆】--:

ok, 速测~希望我能分到"gpt-5.5"


--【柒】--:

是的。佬说的很中肯。Claude编程能力非常强,所以很多佬友都喜欢Claude Max 20x. 但做题能力真的是依托.


--【捌】--:

也许是因为数理能力不太赚钱吧。顶多上上新闻、打打榜。雷声大雨点小。厂商自然缺乏研究的动力。


--【玖】--:

我没有做过相关专业的项目,但我可以给一个启发性的例子。有一个名叫lean4的语言,比较小众。这个语言有一个非常重要的特性是可证明性,可以进行自我验证.

根据这个特性,在IDE里可以安装 lean4+lean-lsp MCP. 这样,AI就能一边写代码,同时lean4+lean-lsp MCP会对代码进行严苛的验证. 例如:

例子013840×2064 351 KB

Lean4会狠狠地惩罚错误的证明:

例子021920×1032 330 KB

例子031920×1032 316 KB

同时,lean-lsp MCP会保证AI会反复修改自己的回答,直至证明完毕. 这套方案应该可以比较高效地测试AI的小众语言编码(其实是数学 )能力


--【拾】--:

感谢测试!!
期待今晚5.5发布!不过我感觉可能会拉,听说速度很快,希望智力别太低

我去,qwen的max又拉了吗hhhh


--【拾壹】--:

因为GPT-5.5-xhigh很明显是API的模型,我就懒得添加(API)的tag了

原来Codex有很多前置提示词 ,学到了,有空我会补上Cherry Studio的测试.


--【拾贰】--:

不太像做题能力,感觉更像是正规的数理和推理能力(“正规”指不是那种脑筋急转弯,感觉脑筋急转弯之类题目是真有点无聊,有时候人类都未必反应过来)。gemini 和 GPT(不降智) 的数理能力的确很强;claude 似乎没点上这方面技能点。感觉各有千秋


--【拾叁】--:

我去,这么有实力!
btw似乎不是5.5,好像是一个新的5.4的检查点?


--【拾肆】--:

算法题目的测试下要求真实编程场景吗?这是否有点……


--【拾伍】--:

补充了DeepseekV4和GPT5.5的测试数据!

Deepseek总体表现很不错! Web端思考一个小时,结果TLE. 但API端却能成功做到AC!成为第三个能够AC黑题的国模

GPT阵营. Web端两兄弟(Thinking, Pro)表现相当优异, 不费吹灰之力便拿下了黑题.

但是, GPT-5.5-xhigh却翻车了 居然卡在了TLE, 一开始我还以为是账号的问题, 但在我换了Pro号&中转站再次测试后, 思考了60分钟, 仍然卡TLE. 难道OpenAI开了倒车?真的降智了?


--【拾陆】--:

有没有测试模型对某些小众语言掌握能力的测试集?类似真实编程场景又能覆盖到语言特性


--【拾柒】--:

没事,还是感谢佬友测试和客观分享,不过我确实这月没续claude pro了,用量太少了 继续用codex了


--【拾捌】--:

image1920×1098 211 KB

我进行测试了(Pro-Standard), 推理速度确实快了许多(60min→20min). 欣慰的是, Pro提供的代码仍然是正确的(AC).


--【拾玖】--:

Claude编程强。除此之外,进不了第一梯队,推理、多模态都不行,算力也不够。但是编程是真的超前,整个AI编程他们写了半部历史。不过编程应该是AI最擅长的,等其他的反应过来,差距应该都不会太大。还有都用Claude设计,本身就是悖论,都一样的东西是最糟糕的设计。