强烈推荐大家参考Cursor最新推出的CursorBench,这应该是目前最好的Coding Benchmark
- 内容介绍
- 文章标签
- 相关推荐
来自Cursor的CursorBench
20260313_1027562400×1800 116 KB
非常符合我的个人体感
推荐大家读一读Blog:
我们如何在 Cursor 中比较模型质量 · Cursor
我们采用线上与线下结合的混合评测流程,让我们对模型质量的理解始终与开发者的真实工作方式保持一致。
网友解答:--【壹】--:
问题是 5.4xhigh和high哪个性能更优呢,他这个benchmark想表达high更优?
--【贰】--:
感谢佬友!
xhigh好像没测评?
--【叁】--:
感谢推荐。
--【肆】--:
没测评xhigh,测了xhigh肯定是xhigh更优
--【伍】--:
5.4 high还是牛逼啊
--【陆】--:
感谢佬友
--【柒】--:
gpt强了,但用起来还是没claude舒服
--【捌】--:
注意文中的是 high 不是 xhigh
--【玖】--:
claude 太贵了,榜单打压一下w
--【拾】--:
国产模型就一个glm5,太惨了
--【拾壹】--:
希望这个数据集别开源,不然上面国产模型就要sota了。。。
--【拾贰】--:
IMG_20260313_114406_6721280×960 76.4 KB
还有这个图,左边是cursor的真实用户的真实场景的遥测数据,非常有价值,很少有这种数据公开
--【拾叁】--:
opus4.6这么差劲吗,连5.3-codex-higt都没打过(持平)
--【拾肆】--:
gtp 5.4高过opus 4.6喽
--【拾伍】--:
cursor用户平时吃那么好吗?自研模型比glm-5强
这个榜单是宣传产品的,除了他们宣传的其他都是公认的强能用了,glm-5能上也是有排面
--【拾陆】--:
什么!!刚上车了claude code max 2x,居然GPT5.4更好吗?有点难以置信。
--【拾柒】--:
这个体感是对的,gpt 5.4 xhigh的确是现在最牛逼的编程模型
--【拾捌】--:
除了它们自研的模型和gemini 3.1pro有些意外,其他的都挺符合个人感觉的
--【拾玖】--: ozer_23:
什么
体感上其实5.2-xhigh就比opus强了,就是慢了点
来自Cursor的CursorBench
20260313_1027562400×1800 116 KB
非常符合我的个人体感
推荐大家读一读Blog:
我们如何在 Cursor 中比较模型质量 · Cursor
我们采用线上与线下结合的混合评测流程,让我们对模型质量的理解始终与开发者的真实工作方式保持一致。
网友解答:--【壹】--:
问题是 5.4xhigh和high哪个性能更优呢,他这个benchmark想表达high更优?
--【贰】--:
感谢佬友!
xhigh好像没测评?
--【叁】--:
感谢推荐。
--【肆】--:
没测评xhigh,测了xhigh肯定是xhigh更优
--【伍】--:
5.4 high还是牛逼啊
--【陆】--:
感谢佬友
--【柒】--:
gpt强了,但用起来还是没claude舒服
--【捌】--:
注意文中的是 high 不是 xhigh
--【玖】--:
claude 太贵了,榜单打压一下w
--【拾】--:
国产模型就一个glm5,太惨了
--【拾壹】--:
希望这个数据集别开源,不然上面国产模型就要sota了。。。
--【拾贰】--:
IMG_20260313_114406_6721280×960 76.4 KB
还有这个图,左边是cursor的真实用户的真实场景的遥测数据,非常有价值,很少有这种数据公开
--【拾叁】--:
opus4.6这么差劲吗,连5.3-codex-higt都没打过(持平)
--【拾肆】--:
gtp 5.4高过opus 4.6喽
--【拾伍】--:
cursor用户平时吃那么好吗?自研模型比glm-5强
这个榜单是宣传产品的,除了他们宣传的其他都是公认的强能用了,glm-5能上也是有排面
--【拾陆】--:
什么!!刚上车了claude code max 2x,居然GPT5.4更好吗?有点难以置信。
--【拾柒】--:
这个体感是对的,gpt 5.4 xhigh的确是现在最牛逼的编程模型
--【拾捌】--:
除了它们自研的模型和gemini 3.1pro有些意外,其他的都挺符合个人感觉的
--【拾玖】--: ozer_23:
什么
体感上其实5.2-xhigh就比opus强了,就是慢了点

