【做题王测试】主流AI(SoTA)算法、推理能力测试
- 内容介绍
- 文章标签
- 相关推荐
测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟
千秋数列2363×1761 162 KB
API端使用的MCP: Mathematica, Python, Julia, fetch
SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)
所有模型的Prompt均相同,仅提问一次*
Kimi2.6(API)的首答TLE, 经过提醒后成功AC
GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC
| AI | OJ | 得分 | 思考时间(min) |
|---|---|---|---|
| Deepseek v3.2 专家模式 | CoT循环 | N/A | |
| Deepseek v4 专家模式 | TLE | 60 | |
| Deepseek-v4-pro-MAX(API) | AC | ~30 | |
| 豆包Web专家模式 | RE | ~10 | |
| Qwen-3.6-Plus 思考 | WA | ~20 | |
| Qwen-3.6-Max-Preview 思考 | TLE | ~20 | |
| Qwen-3.6-Plus(API) | WA | ~120 | |
| Qwen-3.6-Max-Preview(API) | 爆上下文 | N/A | |
| Kimi2.6(Web) | 无输出 | N/A | |
| Minimax2.7 | 无输出 | N/A | |
| GLM-5.1(API) | AC | ~120 | |
| Kimi2.6(API) | AC | ~120 | |
| GPT-5.5-Thinking(Extended) | AC | 7 | |
| GPT-5.5-Thinking(Heavy) | AC | 9 | |
| GPT-5.5-Pro Extended | AC | ~25 | |
| GPT-5.5-xhigh | TLE | 30~60 | |
| GPT-5.4-Thinking(Extended) | TLE | 101 | |
| GPT-5.4-Thinking(Heavy) | AC | ~60 | |
| GPT-5.4-Pro Standard | AC | ~60 | |
| (New?)GPT-5.4-Pro Standard | AC | ~20 | |
| GPT-5.4-Pro Extended | AC | ~60 | |
| GPT-5.4-high | AC | ~20 | |
| GPT-5.4-xhigh | AC | ~30 | |
| Gemini-3.1-Pro | TLE | ~60 | |
| Gemini-3.1-Pro-Deepthink | AC | ~60 | |
| Gemini-3.1-Pro(API) | WA | ~120 | |
| Claude-Opus-4.7-Max(API) | AC | ~100 | |
| Grok-4.2-Heavy | RE | 12 |
4.20 更新
juice值1718×852 65 KB
根据我多次测试,修改之前错误的juice值:(感谢@lueluelue佬提供的juice值)
gpt 5.4-high: 128 → 96
gpt 5.4-xhigh: 768 → 512
有趣的是,虽然gpt 5.4-high和gpt-5.4-thinking-extended的juice值都是96,但是gpt 5.4-high可以AC黑题,gpt-5.4-thinking-extended却无法AC
4.21 更新
笔者低估了Claude的算法能力,没想到Opus 4.7能够AC洛谷黑题了啊…...(之前Opus 4.6连紫题都做不对)
"国产之光"GLM 5.1在思考两小时、消耗10,000,000 tokens后, 终于AC了这道题目! 是目前第一个,也是唯一一个AC这道黑题的国模.
4.22 更新
在提醒过TLE后, Kimi2.6(API)成功AC! 是目前第二个能够AC这道题目的国模
Qwen3.6-plus和Qwen3.6-max-preview无法AC
Gemini-3.1-Pro-Preview无法AC
Grok Heavy纯来玩儿的. 只想了12分钟(6+6), 经过两次提示仍未AC
4.24 更新
更新GPT5.5和DeepseekV4的测试数据
TODO
- 测试Kimi2.6(API)
- 测试Qwen3.6-plus(API)
- 测试Qwen3.6-max-preview(API)
- 测试Gemini-3.1-Pro-Preview(API)
- 测试Grok-4.2-Heavy(娱乐)
- 测试Deepseek V4
- 测试GPT5.5系列
附录
AI生成的原始代码
GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark
A simple benchmark
lueluelue佬的juice值表格
GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice
通过在 GitHub 上创建帐户来为 lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice 开发做出贡献。
个人暴论
《Scaling is All you need》
不论是GPT、opus,还是glm、kimi. 只要"规模"能上去,使劲烧tokens,就能AC黑题.
这就是API比web强的原因. 思维强度高,上下文长,工具用得多,token烧得快。模型能力自然就上去了
--【壹】--:
(才反应过来是lulu佬!lulu佬是我的juice值启蒙!), 感谢大佬反馈, 这可能只是一个灰度测试的快照模型,说不定GPT5.5很快就会发布了!
还有,这几天我对大部分主流AI进行了测试. Kimi和GLM的表现非常惊艳!Qwen不仅贵(Qwen3.6max和plus俩兄弟烧了130¥),表现也不佳. 另外,期待一手Deepseek v4!
--【贰】--:
佬,这两天gpt 5.4 pro更新了,推理能力变差了但是速度变快了,试试看
--【叁】--:
看了一下,怎么GPT测试都是在网页端的,
还有真API调用(做题)应该用Cherry,其他第三方工具调用,而不是Codex,
Coding工具里面会有很多无用的前置提示词
--【肆】--:
终于看到客观的评价了,每次看到某些人把claude吹成神真绷不住了,实际就是纯纯文科生,opus 4.6数学能力连5.4 mini都不如
--【伍】--:
佬,我错怪Claude了. Claude Opus 4.7 Max把这道题给AC了
--【陆】--:
ok, 速测~希望我能分到"gpt-5.5"
--【柒】--:
是的。佬说的很中肯。Claude编程能力非常强,所以很多佬友都喜欢Claude Max 20x. 但做题能力真的是依托.
--【捌】--:
也许是因为数理能力不太赚钱吧。顶多上上新闻、打打榜。雷声大雨点小。厂商自然缺乏研究的动力。
--【玖】--:
我没有做过相关专业的项目,但我可以给一个启发性的例子。有一个名叫lean4的语言,比较小众。这个语言有一个非常重要的特性是可证明性,可以进行自我验证.
根据这个特性,在IDE里可以安装 lean4+lean-lsp MCP. 这样,AI就能一边写代码,同时lean4+lean-lsp MCP会对代码进行严苛的验证. 例如:
例子013840×2064 351 KB
Lean4会狠狠地惩罚错误的证明:
例子021920×1032 330 KB
例子031920×1032 316 KB
同时,lean-lsp MCP会保证AI会反复修改自己的回答,直至证明完毕. 这套方案应该可以比较高效地测试AI的小众语言编码(其实是数学 )能力
--【拾】--:
感谢测试!!
期待今晚5.5发布!不过我感觉可能会拉,听说速度很快,希望智力别太低
我去,qwen的max又拉了吗hhhh
--【拾壹】--:
因为GPT-5.5-xhigh很明显是API的模型,我就懒得添加(API)的tag了
原来Codex有很多前置提示词 ,学到了,有空我会补上Cherry Studio的测试.
--【拾贰】--:
不太像做题能力,感觉更像是正规的数理和推理能力(“正规”指不是那种脑筋急转弯,感觉脑筋急转弯之类题目是真有点无聊,有时候人类都未必反应过来)。gemini 和 GPT(不降智) 的数理能力的确很强;claude 似乎没点上这方面技能点。感觉各有千秋
--【拾叁】--:
我去,这么有实力!
btw似乎不是5.5,好像是一个新的5.4的检查点?
--【拾肆】--:
算法题目的测试下要求真实编程场景吗?这是否有点……
--【拾伍】--:
补充了DeepseekV4和GPT5.5的测试数据!
Deepseek总体表现很不错! Web端思考一个小时,结果TLE. 但API端却能成功做到AC!成为第三个能够AC黑题的国模
GPT阵营. Web端两兄弟(Thinking, Pro)表现相当优异, 不费吹灰之力便拿下了黑题.
但是, GPT-5.5-xhigh却翻车了 居然卡在了TLE, 一开始我还以为是账号的问题, 但在我换了Pro号&中转站再次测试后, 思考了60分钟, 仍然卡TLE. 难道OpenAI开了倒车?真的降智了?
--【拾陆】--:
有没有测试模型对某些小众语言掌握能力的测试集?类似真实编程场景又能覆盖到语言特性
--【拾柒】--:
没事,还是感谢佬友测试和客观分享,不过我确实这月没续claude pro了,用量太少了 继续用codex了
--【拾捌】--:
image1920×1098 211 KB
我进行测试了(Pro-Standard), 推理速度确实快了许多(60min→20min). 欣慰的是, Pro提供的代码仍然是正确的(AC).
--【拾玖】--:
Claude编程强。除此之外,进不了第一梯队,推理、多模态都不行,算力也不够。但是编程是真的超前,整个AI编程他们写了半部历史。不过编程应该是AI最擅长的,等其他的反应过来,差距应该都不会太大。还有都用Claude设计,本身就是悖论,都一样的东西是最糟糕的设计。
测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟
千秋数列2363×1761 162 KB
API端使用的MCP: Mathematica, Python, Julia, fetch
SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)
所有模型的Prompt均相同,仅提问一次*
Kimi2.6(API)的首答TLE, 经过提醒后成功AC
GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC
| AI | OJ | 得分 | 思考时间(min) |
|---|---|---|---|
| Deepseek v3.2 专家模式 | CoT循环 | N/A | |
| Deepseek v4 专家模式 | TLE | 60 | |
| Deepseek-v4-pro-MAX(API) | AC | ~30 | |
| 豆包Web专家模式 | RE | ~10 | |
| Qwen-3.6-Plus 思考 | WA | ~20 | |
| Qwen-3.6-Max-Preview 思考 | TLE | ~20 | |
| Qwen-3.6-Plus(API) | WA | ~120 | |
| Qwen-3.6-Max-Preview(API) | 爆上下文 | N/A | |
| Kimi2.6(Web) | 无输出 | N/A | |
| Minimax2.7 | 无输出 | N/A | |
| GLM-5.1(API) | AC | ~120 | |
| Kimi2.6(API) | AC | ~120 | |
| GPT-5.5-Thinking(Extended) | AC | 7 | |
| GPT-5.5-Thinking(Heavy) | AC | 9 | |
| GPT-5.5-Pro Extended | AC | ~25 | |
| GPT-5.5-xhigh | TLE | 30~60 | |
| GPT-5.4-Thinking(Extended) | TLE | 101 | |
| GPT-5.4-Thinking(Heavy) | AC | ~60 | |
| GPT-5.4-Pro Standard | AC | ~60 | |
| (New?)GPT-5.4-Pro Standard | AC | ~20 | |
| GPT-5.4-Pro Extended | AC | ~60 | |
| GPT-5.4-high | AC | ~20 | |
| GPT-5.4-xhigh | AC | ~30 | |
| Gemini-3.1-Pro | TLE | ~60 | |
| Gemini-3.1-Pro-Deepthink | AC | ~60 | |
| Gemini-3.1-Pro(API) | WA | ~120 | |
| Claude-Opus-4.7-Max(API) | AC | ~100 | |
| Grok-4.2-Heavy | RE | 12 |
4.20 更新
juice值1718×852 65 KB
根据我多次测试,修改之前错误的juice值:(感谢@lueluelue佬提供的juice值)
gpt 5.4-high: 128 → 96
gpt 5.4-xhigh: 768 → 512
有趣的是,虽然gpt 5.4-high和gpt-5.4-thinking-extended的juice值都是96,但是gpt 5.4-high可以AC黑题,gpt-5.4-thinking-extended却无法AC
4.21 更新
笔者低估了Claude的算法能力,没想到Opus 4.7能够AC洛谷黑题了啊…...(之前Opus 4.6连紫题都做不对)
"国产之光"GLM 5.1在思考两小时、消耗10,000,000 tokens后, 终于AC了这道题目! 是目前第一个,也是唯一一个AC这道黑题的国模.
4.22 更新
在提醒过TLE后, Kimi2.6(API)成功AC! 是目前第二个能够AC这道题目的国模
Qwen3.6-plus和Qwen3.6-max-preview无法AC
Gemini-3.1-Pro-Preview无法AC
Grok Heavy纯来玩儿的. 只想了12分钟(6+6), 经过两次提示仍未AC
4.24 更新
更新GPT5.5和DeepseekV4的测试数据
TODO
- 测试Kimi2.6(API)
- 测试Qwen3.6-plus(API)
- 测试Qwen3.6-max-preview(API)
- 测试Gemini-3.1-Pro-Preview(API)
- 测试Grok-4.2-Heavy(娱乐)
- 测试Deepseek V4
- 测试GPT5.5系列
附录
AI生成的原始代码
GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark
A simple benchmark
lueluelue佬的juice值表格
GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice
通过在 GitHub 上创建帐户来为 lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice 开发做出贡献。
个人暴论
《Scaling is All you need》
不论是GPT、opus,还是glm、kimi. 只要"规模"能上去,使劲烧tokens,就能AC黑题.
这就是API比web强的原因. 思维强度高,上下文长,工具用得多,token烧得快。模型能力自然就上去了
--【壹】--:
(才反应过来是lulu佬!lulu佬是我的juice值启蒙!), 感谢大佬反馈, 这可能只是一个灰度测试的快照模型,说不定GPT5.5很快就会发布了!
还有,这几天我对大部分主流AI进行了测试. Kimi和GLM的表现非常惊艳!Qwen不仅贵(Qwen3.6max和plus俩兄弟烧了130¥),表现也不佳. 另外,期待一手Deepseek v4!
--【贰】--:
佬,这两天gpt 5.4 pro更新了,推理能力变差了但是速度变快了,试试看
--【叁】--:
看了一下,怎么GPT测试都是在网页端的,
还有真API调用(做题)应该用Cherry,其他第三方工具调用,而不是Codex,
Coding工具里面会有很多无用的前置提示词
--【肆】--:
终于看到客观的评价了,每次看到某些人把claude吹成神真绷不住了,实际就是纯纯文科生,opus 4.6数学能力连5.4 mini都不如
--【伍】--:
佬,我错怪Claude了. Claude Opus 4.7 Max把这道题给AC了
--【陆】--:
ok, 速测~希望我能分到"gpt-5.5"
--【柒】--:
是的。佬说的很中肯。Claude编程能力非常强,所以很多佬友都喜欢Claude Max 20x. 但做题能力真的是依托.
--【捌】--:
也许是因为数理能力不太赚钱吧。顶多上上新闻、打打榜。雷声大雨点小。厂商自然缺乏研究的动力。
--【玖】--:
我没有做过相关专业的项目,但我可以给一个启发性的例子。有一个名叫lean4的语言,比较小众。这个语言有一个非常重要的特性是可证明性,可以进行自我验证.
根据这个特性,在IDE里可以安装 lean4+lean-lsp MCP. 这样,AI就能一边写代码,同时lean4+lean-lsp MCP会对代码进行严苛的验证. 例如:
例子013840×2064 351 KB
Lean4会狠狠地惩罚错误的证明:
例子021920×1032 330 KB
例子031920×1032 316 KB
同时,lean-lsp MCP会保证AI会反复修改自己的回答,直至证明完毕. 这套方案应该可以比较高效地测试AI的小众语言编码(其实是数学 )能力
--【拾】--:
感谢测试!!
期待今晚5.5发布!不过我感觉可能会拉,听说速度很快,希望智力别太低
我去,qwen的max又拉了吗hhhh
--【拾壹】--:
因为GPT-5.5-xhigh很明显是API的模型,我就懒得添加(API)的tag了
原来Codex有很多前置提示词 ,学到了,有空我会补上Cherry Studio的测试.
--【拾贰】--:
不太像做题能力,感觉更像是正规的数理和推理能力(“正规”指不是那种脑筋急转弯,感觉脑筋急转弯之类题目是真有点无聊,有时候人类都未必反应过来)。gemini 和 GPT(不降智) 的数理能力的确很强;claude 似乎没点上这方面技能点。感觉各有千秋
--【拾叁】--:
我去,这么有实力!
btw似乎不是5.5,好像是一个新的5.4的检查点?
--【拾肆】--:
算法题目的测试下要求真实编程场景吗?这是否有点……
--【拾伍】--:
补充了DeepseekV4和GPT5.5的测试数据!
Deepseek总体表现很不错! Web端思考一个小时,结果TLE. 但API端却能成功做到AC!成为第三个能够AC黑题的国模
GPT阵营. Web端两兄弟(Thinking, Pro)表现相当优异, 不费吹灰之力便拿下了黑题.
但是, GPT-5.5-xhigh却翻车了 居然卡在了TLE, 一开始我还以为是账号的问题, 但在我换了Pro号&中转站再次测试后, 思考了60分钟, 仍然卡TLE. 难道OpenAI开了倒车?真的降智了?
--【拾陆】--:
有没有测试模型对某些小众语言掌握能力的测试集?类似真实编程场景又能覆盖到语言特性
--【拾柒】--:
没事,还是感谢佬友测试和客观分享,不过我确实这月没续claude pro了,用量太少了 继续用codex了
--【拾捌】--:
image1920×1098 211 KB
我进行测试了(Pro-Standard), 推理速度确实快了许多(60min→20min). 欣慰的是, Pro提供的代码仍然是正确的(AC).
--【拾玖】--:
Claude编程强。除此之外,进不了第一梯队,推理、多模态都不行,算力也不够。但是编程是真的超前,整个AI编程他们写了半部历史。不过编程应该是AI最擅长的,等其他的反应过来,差距应该都不会太大。还有都用Claude设计,本身就是悖论,都一样的东西是最糟糕的设计。

