强烈推荐大家参考Cursor最新推出的CursorBench，这应该是目前最好的Coding Benchmark

2026-04-11 14:321阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

来自Cursor的CursorBench

20260313_1027562400×1800 116 KB

非常符合我的个人体感

推荐大家读一读Blog：

Cursor

我们如何在 Cursor 中比较模型质量 · Cursor

我们采用线上与线下结合的混合评测流程，让我们对模型质量的理解始终与开发者的真实工作方式保持一致。

网友解答：

--【壹】--：

问题是 5.4xhigh和high哪个性能更优呢，他这个benchmark想表达high更优？

--【贰】--：

感谢佬友！

xhigh好像没测评？

--【叁】--：

感谢推荐。

--【肆】--：

没测评xhigh，测了xhigh肯定是xhigh更优

--【伍】--：

5.4 high还是牛逼啊

--【陆】--：

感谢佬友

--【柒】--：

gpt强了，但用起来还是没claude舒服

--【捌】--：

注意文中的是 high 不是 xhigh

--【玖】--：

claude 太贵了，榜单打压一下w

--【拾】--：

国产模型就一个glm5,太惨了

--【拾壹】--：

希望这个数据集别开源，不然上面国产模型就要sota了。。。

--【拾贰】--：

IMG_20260313_114406_6721280×960 76.4 KB

还有这个图，左边是cursor的真实用户的真实场景的遥测数据，非常有价值，很少有这种数据公开

--【拾叁】--：

opus4.6这么差劲吗，连5.3-codex-higt都没打过（持平）

--【拾肆】--：

gtp 5.4高过opus 4.6喽

--【拾伍】--：

cursor用户平时吃那么好吗？自研模型比glm-5强

这个榜单是宣传产品的，除了他们宣传的其他都是公认的强能用了，glm-5能上也是有排面

--【拾陆】--：

什么！！刚上车了claude code max 2x，居然GPT5.4更好吗？有点难以置信。

--【拾柒】--：

这个体感是对的，gpt 5.4 xhigh的确是现在最牛逼的编程模型

--【拾捌】--：

除了它们自研的模型和gemini 3.1pro有些意外，其他的都挺符合个人感觉的

--【拾玖】--： ozer_23:

什么

体感上其实5.2-xhigh就比opus强了，就是慢了点

标签：人工智能

问题描述：

来自Cursor的CursorBench

20260313_1027562400×1800 116 KB

非常符合我的个人体感

推荐大家读一读Blog：

Cursor

我们如何在 Cursor 中比较模型质量 · Cursor

我们采用线上与线下结合的混合评测流程，让我们对模型质量的理解始终与开发者的真实工作方式保持一致。

网友解答：

--【壹】--：

问题是 5.4xhigh和high哪个性能更优呢，他这个benchmark想表达high更优？

--【贰】--：

感谢佬友！

xhigh好像没测评？

--【叁】--：

感谢推荐。

--【肆】--：

没测评xhigh，测了xhigh肯定是xhigh更优

--【伍】--：

5.4 high还是牛逼啊

--【陆】--：

感谢佬友

--【柒】--：

gpt强了，但用起来还是没claude舒服

--【捌】--：

注意文中的是 high 不是 xhigh

--【玖】--：

claude 太贵了，榜单打压一下w

--【拾】--：

国产模型就一个glm5,太惨了

--【拾壹】--：

希望这个数据集别开源，不然上面国产模型就要sota了。。。

--【拾贰】--：

IMG_20260313_114406_6721280×960 76.4 KB

还有这个图，左边是cursor的真实用户的真实场景的遥测数据，非常有价值，很少有这种数据公开

--【拾叁】--：

opus4.6这么差劲吗，连5.3-codex-higt都没打过（持平）

--【拾肆】--：

gtp 5.4高过opus 4.6喽

--【拾伍】--：

cursor用户平时吃那么好吗？自研模型比glm-5强

这个榜单是宣传产品的，除了他们宣传的其他都是公认的强能用了，glm-5能上也是有排面

--【拾陆】--：

什么！！刚上车了claude code max 2x，居然GPT5.4更好吗？有点难以置信。

--【拾柒】--：

这个体感是对的，gpt 5.4 xhigh的确是现在最牛逼的编程模型

--【拾捌】--：

除了它们自研的模型和gemini 3.1pro有些意外，其他的都挺符合个人感觉的

--【拾玖】--： ozer_23:

什么

体感上其实5.2-xhigh就比opus强了，就是慢了点

标签：人工智能

我们如何在 Cursor 中比较模型质量 · Cursor

相关推荐

我们如何在 Cursor 中比较模型质量 · Cursor

相关推荐