OpenClaw AI Agent 小龙虾能力排行榜

2026-04-11 14:191阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型，通过自动化检查 + LLM 评审来打分，衡量每个模型完成任务的成功率。

前三名分别为：

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是：

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上，GPT-5.2 反而只有 65.6% 排名靠后，DeepSeek V3.2 在 82% 左右。
image1920×1923 365 KB

pinchbench.com

PinchBench - Success Rate Leaderboard

Benchmarking LLM models as AI agents across standardized coding tasks

测试用的测试代码，佬友们可以自行测试

github.com

GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...

PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai

网友解答：

--【壹】--：

瞎写的吧m2.1甚至能排第二？

--【贰】--：

真假？Claude 这么低？

--【叁】--：

3.2真的这么强吗，居然但还有82%

--【肆】--：

有佬友试试吗

--【伍】--：

因为3 Pro给所有东西都rm了导致的LLM无法评分应该怎么算呢

--【陆】--：

确实是不够全面，不过咱们国产的追赶速度也是可以的。而且用的还是MiniMax M2.1

--【柒】--：

这感觉像考虑了性价比吧，不然纯纯野榜

--【捌】--：

m2.5排倒数
image2395×598 51.2 KB

--【玖】--：

看了下这个测试示例，太片面了

--【拾】--：

感觉野榜啊体感不一致啊

--【拾壹】--：

这不妥妥的野榜，排名与实际效果不一致

--【拾贰】--：

怎么有个gpt 5 nano

--【拾叁】--：

感觉很水

--【拾肆】--：

不是吗,我觉得Gemini 3 Flash对话很假的

--【拾伍】--：

要不是我都用过我就信了

--【拾陆】--：

4.6o咋这么靠后

--【拾柒】--：

按理说不应该
参考价值存疑

--【拾捌】--：

不确定啊，佬友们，不过人家留了测试时使用的代码，有需要的可以自己去测试一下判断一下。

--【拾玖】--：

要不是排名前几个我都用过我就信了

标签：人工智能

问题描述：

前三名分别为：

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是：

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上，GPT-5.2 反而只有 65.6% 排名靠后，DeepSeek V3.2 在 82% 左右。
image1920×1923 365 KB

pinchbench.com

PinchBench - Success Rate Leaderboard

Benchmarking LLM models as AI agents across standardized coding tasks

测试用的测试代码，佬友们可以自行测试

github.com

GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...

PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai

网友解答：

--【壹】--：

瞎写的吧m2.1甚至能排第二？

--【贰】--：

真假？Claude 这么低？

--【叁】--：

3.2真的这么强吗，居然但还有82%

--【肆】--：

有佬友试试吗

--【伍】--：

因为3 Pro给所有东西都rm了导致的LLM无法评分应该怎么算呢

--【陆】--：

确实是不够全面，不过咱们国产的追赶速度也是可以的。而且用的还是MiniMax M2.1

--【柒】--：

这感觉像考虑了性价比吧，不然纯纯野榜

--【捌】--：

m2.5排倒数
image2395×598 51.2 KB

--【玖】--：

看了下这个测试示例，太片面了

--【拾】--：

感觉野榜啊体感不一致啊

--【拾壹】--：

这不妥妥的野榜，排名与实际效果不一致

--【拾贰】--：

怎么有个gpt 5 nano

--【拾叁】--：

感觉很水

--【拾肆】--：

不是吗,我觉得Gemini 3 Flash对话很假的

--【拾伍】--：

要不是我都用过我就信了

--【拾陆】--：

4.6o咋这么靠后

--【拾柒】--：

按理说不应该
参考价值存疑

--【拾捌】--：

不确定啊，佬友们，不过人家留了测试时使用的代码，有需要的可以自己去测试一下判断一下。

--【拾玖】--：

要不是排名前几个我都用过我就信了

标签：人工智能

PinchBench - Success Rate Leaderboard

GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...

相关推荐

PinchBench - Success Rate Leaderboard

GitHub - pinchbench/skill: PinchBench is a benchmarking system for evaluating...

相关推荐