OpenClaw AI Agent 小龙虾能力排行榜
- 内容介绍
- 文章标签
- 相关推荐
专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。
前三名分别为:
Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5
然后是:
Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6
Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。
image1920×1923 365 KB
PinchBench - Success Rate Leaderboard
Benchmarking LLM models as AI agents across standardized coding tasks
测试用的测试代码,佬友们可以自行测试
GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...
PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai
网友解答:--【壹】--:
瞎写的吧m2.1甚至能排第二?
--【贰】--:
真假?Claude 这么低?
--【叁】--:
3.2真的这么强吗,居然但还有82%
--【肆】--:
有佬友试试吗
--【伍】--:
因为3 Pro给所有东西都rm了导致的LLM无法评分应该怎么算呢
--【陆】--:
确实是不够全面,不过咱们国产的追赶速度也是可以的。而且用的还是MiniMax M2.1
--【柒】--:
这感觉像考虑了性价比吧,不然纯纯野榜
--【捌】--:
m2.5排倒数
image2395×598 51.2 KB
--【玖】--:
看了下这个测试示例,太片面了
--【拾】--:
感觉野榜啊 体感不一致啊
--【拾壹】--:
这不妥妥的野榜,排名与实际效果不一致
--【拾贰】--:
怎么有个gpt 5 nano
--【拾叁】--:
感觉很水
--【拾肆】--:
不是吗,我觉得Gemini 3 Flash对话很假的
--【拾伍】--:
要不是我都用过我就信了
--【拾陆】--:
4.6o咋这么靠后
--【拾柒】--:
按理说不应该
参考价值存疑
--【拾捌】--:
不确定啊,佬友们,不过人家留了测试时使用的代码,有需要的可以自己去测试一下判断一下。
--【拾玖】--:
要不是排名前几个我都用过我就信了
专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。
前三名分别为:
Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5
然后是:
Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6
Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。
image1920×1923 365 KB
PinchBench - Success Rate Leaderboard
Benchmarking LLM models as AI agents across standardized coding tasks
测试用的测试代码,佬友们可以自行测试
GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...
PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai
网友解答:--【壹】--:
瞎写的吧m2.1甚至能排第二?
--【贰】--:
真假?Claude 这么低?
--【叁】--:
3.2真的这么强吗,居然但还有82%
--【肆】--:
有佬友试试吗
--【伍】--:
因为3 Pro给所有东西都rm了导致的LLM无法评分应该怎么算呢
--【陆】--:
确实是不够全面,不过咱们国产的追赶速度也是可以的。而且用的还是MiniMax M2.1
--【柒】--:
这感觉像考虑了性价比吧,不然纯纯野榜
--【捌】--:
m2.5排倒数
image2395×598 51.2 KB
--【玖】--:
看了下这个测试示例,太片面了
--【拾】--:
感觉野榜啊 体感不一致啊
--【拾壹】--:
这不妥妥的野榜,排名与实际效果不一致
--【拾贰】--:
怎么有个gpt 5 nano
--【拾叁】--:
感觉很水
--【拾肆】--:
不是吗,我觉得Gemini 3 Flash对话很假的
--【拾伍】--:
要不是我都用过我就信了
--【拾陆】--:
4.6o咋这么靠后
--【拾柒】--:
按理说不应该
参考价值存疑
--【拾捌】--:
不确定啊,佬友们,不过人家留了测试时使用的代码,有需要的可以自己去测试一下判断一下。
--【拾玖】--:
要不是排名前几个我都用过我就信了

