【做题王测试】主流AI(SoTA)算法、推理能力测试

2026-04-29 10:051阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)

所有模型的Prompt均相同,仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh​在两次不同模型来源的测试中均未能AC​

<
阅读全文
标签:人工智能
问题描述:

测试方法: 喂给AI一道非常困难的算法题. 根据代码通过状态来判断AI的水平. 基本上所有AI都需要思考大于30分钟的时间, 部分AI需要思考近120分钟

千秋数列2363×1761 162 KB

API端使用的MCP: Mathematica, Python, Julia, fetch

SPOJ(洛谷黑题难度):Chiaki Sequence (千秋数列)

所有模型的Prompt均相同,仅提问一次*

Kimi2.6(API)的首答TLE, 经过提醒后成功AC

GPT-5.5-xhigh​在两次不同模型来源的测试中均未能AC​

AI OJ 得分 思考时间(min)
Deepseek v3.2 专家模式 CoT循环 N/A
Deepseek v4 专家模式 TLE 60
Deepseek-v4-pro-MAX(API) AC
<
阅读全文
标签:人工智能
AI OJ 得分 思考时间(min)
Deepseek v3.2 专家模式 CoT循环 N/A
Deepseek v4 专家模式 TLE 60
Deepseek-v4-pro-MAX(API) AC