OpenClaw AI Agent 小龙虾能力排行榜

2026-04-11 14:190阅读0评论SEO资源

问题描述：

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型，通过自动化检查 + LLM 评审来打分，衡量每个模型完成任务的成功率。

前三名分别为：

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是：

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上，GPT-5.2 反而只有 65.6% 排名靠后，DeepSeek V3.2 在 82% 左右。

问题描述：

前三名分别为：

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是：

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上，GPT-5.2 反而只有 65.6% 排名靠后，DeepSeek V3.2 在 82% 左右。