【做题王测试】主流AI(SoTA)算法、推理能力测试
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟
千秋数列2363×1761 162 KB
API端使用的MCP: Mathematica, Python, Julia, fetch
SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)
所有模型的Prompt均相同,仅提问一次*
Kimi2.6(API)的首答TLE, 经过提醒后成功AC
GPT-5.5-xhigh在两次不同模型来源的测试中均未能AC
| AI | OJ | 得分 | 思考时间(min) | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Deepseek v3.2 专家模式 | CoT循环 | N/A | |||||||||||||
| Deepseek v4 专家模式 | TLE | 60 | |||||||||||||
| Deepseek-v4-pro-MAX(API) | AC | <
| AI | OJ | 得分 | 思考时间(min) |
|---|---|---|---|
| Deepseek v3.2 专家模式 | CoT循环 | N/A | |
| Deepseek v4 专家模式 | TLE | 60 | |
| Deepseek-v4-pro-MAX(API) | AC | <

