OpenClaw AI Agent 小龙虾能力排行榜

2026-04-11 14:191阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。

前三名分别为:

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是:

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。
image1920×1923 365 KB

pinchbench.com

PinchBench - Success Rate Leaderboard

Benchmarking LLM models as AI agents across standardized coding tasks

测试用的测试代码,佬友们可以自行测试

github.com

GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...

PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai

网友解答:
--【壹】--:

瞎写的吧m2.1甚至能排第二?


--【贰】--:

真假?Claude 这么低?


--【叁】--:

3.2真的这么强吗,居然但还有82%


--【肆】--:

有佬友试试吗


--【伍】--:

因为3 Pro给所有东西都rm了导致的LLM无法评分应该怎么算呢


--【陆】--:

确实是不够全面,不过咱们国产的追赶速度也是可以的。而且用的还是MiniMax M2.1


--【柒】--:

这感觉像考虑了性价比吧,不然纯纯野榜


--【捌】--:

m2.5排倒数
image2395×598 51.2 KB


--【玖】--:

看了下这个测试示例,太片面了


--【拾】--:

感觉野榜啊 体感不一致啊


--【拾壹】--:

这不妥妥的野榜,排名与实际效果不一致


--【拾贰】--:

怎么有个gpt 5 nano


--【拾叁】--:

感觉很水


--【拾肆】--:

不是吗,我觉得Gemini 3 Flash对话很假的


--【拾伍】--:

要不是我都用过我就信了


--【拾陆】--:

4.6o咋这么靠后


--【拾柒】--:

按理说不应该
参考价值存疑


--【拾捌】--:

不确定啊,佬友们,不过人家留了测试时使用的代码,有需要的可以自己去测试一下判断一下。


--【拾玖】--:

要不是排名前几个我都用过我就信了