强烈推荐大家参考Cursor最新推出的CursorBench,这应该是目前最好的Coding Benchmark

2026-04-11 14:321阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

来自Cursor的CursorBench

20260313_1027562400×1800 116 KB

非常符合我的个人体感

推荐大家读一读Blog:

Cursor

我们如何在 Cursor 中比较模型质量 · Cursor

我们采用线上与线下结合的混合评测流程,让我们对模型质量的理解始终与开发者的真实工作方式保持一致。

网友解答:
--【壹】--:

问题是 5.4xhigh和high哪个性能更优呢,他这个benchmark想表达high更优?


--【贰】--:

感谢佬友!

xhigh好像没测评?


--【叁】--:

感谢推荐。


--【肆】--:

没测评xhigh,测了xhigh肯定是xhigh更优


--【伍】--:

5.4 high还是牛逼啊


--【陆】--:

感谢佬友


--【柒】--:

gpt强了,但用起来还是没claude舒服


--【捌】--:

注意文中的是 high 不是 xhigh


--【玖】--:

claude 太贵了,榜单打压一下w


--【拾】--:

国产模型就一个glm5,太惨了


--【拾壹】--:

希望这个数据集别开源,不然上面国产模型就要sota了。。。


--【拾贰】--:

IMG_20260313_114406_6721280×960 76.4 KB

还有这个图,左边是cursor的真实用户的真实场景的遥测数据,非常有价值,很少有这种数据公开


--【拾叁】--:

opus4.6这么差劲吗,连5.3-codex-higt都没打过(持平)


--【拾肆】--:

gtp 5.4高过opus 4.6喽


--【拾伍】--:

cursor用户平时吃那么好吗?自研模型比glm-5强

这个榜单是宣传产品的,除了他们宣传的其他都是公认的强能用了,glm-5能上也是有排面


--【拾陆】--:

什么!!刚上车了claude code max 2x,居然GPT5.4更好吗?有点难以置信。


--【拾柒】--:

这个体感是对的,gpt 5.4 xhigh的确是现在最牛逼的编程模型


--【拾捌】--:

除了它们自研的模型和gemini 3.1pro有些意外,其他的都挺符合个人感觉的


--【拾玖】--: ozer_23:

什么

体感上其实5.2-xhigh就比opus强了,就是慢了点