【做题王测试】主流AI(SoTA)算法、推理能力测试

2026-04-29 10:051阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度)：Chiaki Sequence (千秋数列)

所有模型的Prompt均相同，仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC

<

标签：人工智能

问题描述：

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度)：Chiaki Sequence (千秋数列)

所有模型的Prompt均相同，仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC

AI	OJ	得分	思考时间(min)
Deepseek v3.2 专家模式	CoT循环		N/A
Deepseek v4 专家模式	TLE		60
Deepseek-v4-pro-MAX(API)	AC

<

标签：人工智能

AI	OJ	得分	思考时间(min)
Deepseek v3.2 专家模式	CoT循环		N/A
Deepseek v4 专家模式	TLE		60
Deepseek-v4-pro-MAX(API)	AC