【做题王测试】主流AI(SoTA)算法、推理能力测试

2026-04-29 10:052阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度)：Chiaki Sequence (千秋数列)

所有模型的Prompt均相同，仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC

AI	OJ	思考时间(min)
Deepseek v3.2 专家模式	CoT循环	N/A
Deepseek v4 专家模式	TLE	60
Deepseek-v4-pro-MAX(API)	AC	~30
豆包Web专家模式	RE	~10
Qwen-3.6-Plus 思考	WA	~20
Qwen-3.6-Max-Preview 思考	TLE	~20
Qwen-3.6-Plus(API)	WA	~120
Qwen-3.6-Max-Preview(API)	爆上下文	N/A
Kimi2.6(Web)	无输出	N/A
Minimax2.7	无输出	N/A
GLM-5.1(API)	AC	~120
Kimi2.6(API)	AC	~120
GPT-5.5-Thinking(Extended)	AC	7
GPT-5.5-Thinking(Heavy)	AC	9
GPT-5.5-Pro Extended	AC	~25
GPT-5.5-xhigh	TLE	30~60
GPT-5.4-Thinking(Extended)	TLE	101
GPT-5.4-Thinking(Heavy)	AC	~60
GPT-5.4-Pro Standard	AC	~60
(New?)GPT-5.4-Pro Standard	AC	~20
GPT-5.4-Pro Extended	AC	~60
GPT-5.4-high	AC	~20
GPT-5.4-xhigh	AC	~30
Gemini-3.1-Pro	TLE	~60
Gemini-3.1-Pro-Deepthink	AC	~60
Gemini-3.1-Pro(API)	WA	~120
Claude-Opus-4.7-Max(API)	AC	~100
Grok-4.2-Heavy	RE	12

4.20 更新

juice值1718×852 65 KB

根据我多次测试，修改之前错误的juice值：(感谢@lueluelue佬提供的juice值)

gpt 5.4-high: 128 → 96
gpt 5.4-xhigh: 768 → 512

有趣的是，虽然gpt 5.4-high和gpt-5.4-thinking-extended的juice值都是96，但是gpt 5.4-high可以AC黑题，gpt-5.4-thinking-extended却无法AC

4.21 更新

笔者低估了Claude的算法能力，没想到Opus 4.7能够AC洛谷黑题了啊…...(之前Opus 4.6连紫题都做不对)

"国产之光"GLM 5.1在思考两小时、消耗10,000,000 tokens后, 终于AC了这道题目! 是目前第一个，也是唯一一个AC这道黑题的国模.

4.22 更新

在提醒过TLE后, Kimi2.6(API)成功AC! 是目前第二个能够AC这道题目的国模
Qwen3.6-plus和Qwen3.6-max-preview无法AC
Gemini-3.1-Pro-Preview无法AC
Grok Heavy纯来玩儿的. 只想了12分钟(6+6), 经过两次提示仍未AC

4.24 更新

更新GPT5.5和DeepseekV4的测试数据

TODO

测试Kimi2.6(API)
测试Qwen3.6-plus(API)
测试Qwen3.6-max-preview(API)
测试Gemini-3.1-Pro-Preview(API)
测试Grok-4.2-Heavy(娱乐)
测试Deepseek V4
测试GPT5.5系列

附录

AI生成的原始代码

github.com

GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark

A simple benchmark

lueluelue佬的juice值表格

github.com

GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice

通过在 GitHub 上创建帐户来为 lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice 开发做出贡献。

个人暴论

《Scaling is All you need》

不论是GPT、opus，还是glm、kimi. 只要"规模"能上去，使劲烧tokens，就能AC黑题.
这就是API比web强的原因. 思维强度高，上下文长，工具用得多，token烧得快。模型能力自然就上去了

网友解答：

--【壹】--：

(才反应过来是lulu佬！lulu佬是我的juice值启蒙!), 感谢大佬反馈, 这可能只是一个灰度测试的快照模型，说不定GPT5.5很快就会发布了!

还有，这几天我对大部分主流AI进行了测试. Kimi和GLM的表现非常惊艳！Qwen不仅贵(Qwen3.6max和plus俩兄弟烧了130￥)，表现也不佳. 另外，期待一手Deepseek v4!

--【贰】--：

佬，这两天gpt 5.4 pro更新了，推理能力变差了但是速度变快了，试试看

--【叁】--：

看了一下，怎么GPT测试都是在网页端的，

还有真API调用（做题）应该用Cherry，其他第三方工具调用，而不是Codex，

Coding工具里面会有很多无用的前置提示词

--【肆】--：

终于看到客观的评价了，每次看到某些人把claude吹成神真绷不住了，实际就是纯纯文科生，opus 4.6数学能力连5.4 mini都不如

--【伍】--：

佬，我错怪Claude了. Claude Opus 4.7 Max把这道题给AC了

--【陆】--：

ok, 速测~希望我能分到"gpt-5.5"

--【柒】--：

是的。佬说的很中肯。Claude编程能力非常强，所以很多佬友都喜欢Claude Max 20x. 但做题能力真的是依托.

--【捌】--：

也许是因为数理能力不太赚钱吧。顶多上上新闻、打打榜。雷声大雨点小。厂商自然缺乏研究的动力。

--【玖】--：

我没有做过相关专业的项目，但我可以给一个启发性的例子。有一个名叫lean4的语言，比较小众。这个语言有一个非常重要的特性是可证明性，可以进行自我验证.

根据这个特性，在IDE里可以安装 lean4+lean-lsp MCP. 这样，AI就能一边写代码，同时lean4+lean-lsp MCP会对代码进行严苛的验证. 例如:

例子013840×2064 351 KB

Lean4会狠狠地惩罚错误的证明:

例子021920×1032 330 KB

例子031920×1032 316 KB

同时，lean-lsp MCP会保证AI会反复修改自己的回答，直至证明完毕. 这套方案应该可以比较高效地测试AI的小众语言编码(其实是数学 )能力

--【拾】--：

感谢测试！！
期待今晚5.5发布！不过我感觉可能会拉，听说速度很快，希望智力别太低

我去，qwen的max又拉了吗hhhh

--【拾壹】--：

因为GPT-5.5-xhigh很明显是API的模型，我就懒得添加(API)的tag了

原来Codex有很多前置提示词，学到了，有空我会补上Cherry Studio的测试.

--【拾贰】--：

不太像做题能力，感觉更像是正规的数理和推理能力（“正规”指不是那种脑筋急转弯，感觉脑筋急转弯之类题目是真有点无聊，有时候人类都未必反应过来）。gemini 和 GPT（不降智）的数理能力的确很强；claude 似乎没点上这方面技能点。感觉各有千秋

--【拾叁】--：

我去，这么有实力！
btw似乎不是5.5，好像是一个新的5.4的检查点？

--【拾肆】--：

算法题目的测试下要求真实编程场景吗？这是否有点……

--【拾伍】--：

补充了DeepseekV4和GPT5.5的测试数据！

Deepseek总体表现很不错! Web端思考一个小时，结果TLE. 但API端却能成功做到AC!成为第三个能够AC黑题的国模

GPT阵营. Web端两兄弟(Thinking, Pro)表现相当优异, 不费吹灰之力便拿下了黑题.

但是, GPT-5.5-xhigh却翻车了居然卡在了TLE, 一开始我还以为是账号的问题, 但在我换了Pro号&中转站再次测试后, 思考了60分钟, 仍然卡TLE. 难道OpenAI开了倒车？真的降智了？

--【拾陆】--：

有没有测试模型对某些小众语言掌握能力的测试集？类似真实编程场景又能覆盖到语言特性

--【拾柒】--：

没事，还是感谢佬友测试和客观分享，不过我确实这月没续claude pro了，用量太少了继续用codex了

--【拾捌】--：

image1920×1098 211 KB

我进行测试了(Pro-Standard), 推理速度确实快了许多(60min→20min). 欣慰的是, Pro提供的代码仍然是正确的(AC).

--【拾玖】--：

Claude编程强。除此之外，进不了第一梯队，推理、多模态都不行，算力也不够。但是编程是真的超前，整个AI编程他们写了半部历史。不过编程应该是AI最擅长的，等其他的反应过来，差距应该都不会太大。还有都用Claude设计，本身就是悖论，都一样的东西是最糟糕的设计。

标签：人工智能

问题描述：

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度)：Chiaki Sequence (千秋数列)

所有模型的Prompt均相同，仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC

AI	OJ	思考时间(min)
Deepseek v3.2 专家模式	CoT循环	N/A
Deepseek v4 专家模式	TLE	60
Deepseek-v4-pro-MAX(API)	AC	~30
豆包Web专家模式	RE	~10
Qwen-3.6-Plus 思考	WA	~20
Qwen-3.6-Max-Preview 思考	TLE	~20
Qwen-3.6-Plus(API)	WA	~120
Qwen-3.6-Max-Preview(API)	爆上下文	N/A
Kimi2.6(Web)	无输出	N/A
Minimax2.7	无输出	N/A
GLM-5.1(API)	AC	~120
Kimi2.6(API)	AC	~120
GPT-5.5-Thinking(Extended)	AC	7
GPT-5.5-Thinking(Heavy)	AC	9
GPT-5.5-Pro Extended	AC	~25
GPT-5.5-xhigh	TLE	30~60
GPT-5.4-Thinking(Extended)	TLE	101
GPT-5.4-Thinking(Heavy)	AC	~60
GPT-5.4-Pro Standard	AC	~60
(New?)GPT-5.4-Pro Standard	AC	~20
GPT-5.4-Pro Extended	AC	~60
GPT-5.4-high	AC	~20
GPT-5.4-xhigh	AC	~30
Gemini-3.1-Pro	TLE	~60
Gemini-3.1-Pro-Deepthink	AC	~60
Gemini-3.1-Pro(API)	WA	~120
Claude-Opus-4.7-Max(API)	AC	~100
Grok-4.2-Heavy	RE	12

4.20 更新

juice值1718×852 65 KB

根据我多次测试，修改之前错误的juice值：(感谢@lueluelue佬提供的juice值)

gpt 5.4-high: 128 → 96
gpt 5.4-xhigh: 768 → 512

有趣的是，虽然gpt 5.4-high和gpt-5.4-thinking-extended的juice值都是96，但是gpt 5.4-high可以AC黑题，gpt-5.4-thinking-extended却无法AC

4.21 更新

笔者低估了Claude的算法能力，没想到Opus 4.7能够AC洛谷黑题了啊…...(之前Opus 4.6连紫题都做不对)

"国产之光"GLM 5.1在思考两小时、消耗10,000,000 tokens后, 终于AC了这道题目! 是目前第一个，也是唯一一个AC这道黑题的国模.

4.22 更新

4.24 更新

更新GPT5.5和DeepseekV4的测试数据

TODO

测试Kimi2.6(API)
测试Qwen3.6-plus(API)
测试Qwen3.6-max-preview(API)
测试Gemini-3.1-Pro-Preview(API)
测试Grok-4.2-Heavy(娱乐)
测试Deepseek V4
测试GPT5.5系列

附录

AI生成的原始代码

github.com

GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark

A simple benchmark

lueluelue佬的juice值表格

github.com

GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice

通过在 GitHub 上创建帐户来为 lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice 开发做出贡献。

个人暴论

《Scaling is All you need》

网友解答：

--【壹】--：

(才反应过来是lulu佬！lulu佬是我的juice值启蒙!), 感谢大佬反馈, 这可能只是一个灰度测试的快照模型，说不定GPT5.5很快就会发布了!

还有，这几天我对大部分主流AI进行了测试. Kimi和GLM的表现非常惊艳！Qwen不仅贵(Qwen3.6max和plus俩兄弟烧了130￥)，表现也不佳. 另外，期待一手Deepseek v4!

--【贰】--：

佬，这两天gpt 5.4 pro更新了，推理能力变差了但是速度变快了，试试看

--【叁】--：

看了一下，怎么GPT测试都是在网页端的，

还有真API调用（做题）应该用Cherry，其他第三方工具调用，而不是Codex，

Coding工具里面会有很多无用的前置提示词

--【肆】--：

终于看到客观的评价了，每次看到某些人把claude吹成神真绷不住了，实际就是纯纯文科生，opus 4.6数学能力连5.4 mini都不如

--【伍】--：

佬，我错怪Claude了. Claude Opus 4.7 Max把这道题给AC了

--【陆】--：

ok, 速测~希望我能分到"gpt-5.5"

--【柒】--：

是的。佬说的很中肯。Claude编程能力非常强，所以很多佬友都喜欢Claude Max 20x. 但做题能力真的是依托.

--【捌】--：

也许是因为数理能力不太赚钱吧。顶多上上新闻、打打榜。雷声大雨点小。厂商自然缺乏研究的动力。

--【玖】--：

根据这个特性，在IDE里可以安装 lean4+lean-lsp MCP. 这样，AI就能一边写代码，同时lean4+lean-lsp MCP会对代码进行严苛的验证. 例如:

例子013840×2064 351 KB

Lean4会狠狠地惩罚错误的证明:

例子021920×1032 330 KB

例子031920×1032 316 KB

同时，lean-lsp MCP会保证AI会反复修改自己的回答，直至证明完毕. 这套方案应该可以比较高效地测试AI的小众语言编码(其实是数学 )能力

--【拾】--：

感谢测试！！
期待今晚5.5发布！不过我感觉可能会拉，听说速度很快，希望智力别太低

我去，qwen的max又拉了吗hhhh

--【拾壹】--：

因为GPT-5.5-xhigh很明显是API的模型，我就懒得添加(API)的tag了

原来Codex有很多前置提示词，学到了，有空我会补上Cherry Studio的测试.

--【拾贰】--：

--【拾叁】--：

我去，这么有实力！
btw似乎不是5.5，好像是一个新的5.4的检查点？

--【拾肆】--：

算法题目的测试下要求真实编程场景吗？这是否有点……

--【拾伍】--：

补充了DeepseekV4和GPT5.5的测试数据！

Deepseek总体表现很不错! Web端思考一个小时，结果TLE. 但API端却能成功做到AC!成为第三个能够AC黑题的国模

GPT阵营. Web端两兄弟(Thinking, Pro)表现相当优异, 不费吹灰之力便拿下了黑题.

--【拾陆】--：

有没有测试模型对某些小众语言掌握能力的测试集？类似真实编程场景又能覆盖到语言特性

--【拾柒】--：

没事，还是感谢佬友测试和客观分享，不过我确实这月没续claude pro了，用量太少了继续用codex了

--【拾捌】--：

image1920×1098 211 KB

我进行测试了(Pro-Standard), 推理速度确实快了许多(60min→20min). 欣慰的是, Pro提供的代码仍然是正确的(AC).

--【拾玖】--：

标签：人工智能

4.20 更新

4.21 更新

4.22 更新

4.24 更新

TODO

附录

AI生成的原始代码

GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark

lueluelue佬的juice值表格

GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice

个人暴论

《Scaling is All you need》

相关推荐

4.20 更新

4.21 更新

4.22 更新

4.24 更新

TODO

附录

AI生成的原始代码

GitHub - rocyax/SOTA-Algorithm-Benchmarks: A simple benchmark

lueluelue佬的juice值表格

GitHub - lueluelue2006/ChatGPT_Compendium_of_Usage_and_Juice

个人暴论

《Scaling is All you need》

相关推荐