OpenClaw AI Agent 小龙虾能力排行榜

2026-04-11 14:190阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。

前三名分别为:

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是:

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。

阅读全文
标签:人工智能
问题描述:

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。

前三名分别为:

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是:

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。

阅读全文
标签:人工智能