GPT-5.5模型的Arena的评分排行出来了

2026-04-29 08:242阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

从官方发文搬过来的，没想到的是代码这块居然会被glm、kimi压下去。详细内容如下：

IMG33291340×1344 164 KB
IMG33291340×1344 164 KB
IMG33311340×1344 169 KB
IMG33321340×1344 162 KB
IMG33331200×1077 85.9 KB
IMG33341200×1036 80.8 KB

网友解答：

--【壹】--：

看到GLM 5.1比sonnet 4.6高。我笑了笑没说话hh

--【贰】--：

这榜单看着很好笑，这编程能力估计测的都是前端的分数吧

--【叁】--：

这是 Hard Prompt 不是 Text 总榜

--【肆】--：

问题是我认识的老外没有几个现在不骂OPUS4.7的，因为也不说人话了，哈哈哈，都想用回OPUS4.6，国人也差不多

--【伍】--：

5.5还是干不过4.7？连4.6都干不过，这跟老友们的使用体验反馈结果有偏差啊。

--【陆】--：

GLM5.1比SONNET高？然后GPT没有狗屎OPUS 4.7高？你和我说这个榜单不是野榜？你看看国外都怎么喷OPUS4.7的，不说人话了都，当然你要是说它只测前端，那我服，因为GPT的前端的确拉，哈哈哈

--【柒】--：

image1308×508 45.5 KB
这是总榜，5.5还是很靠后

--【捌】--：

这个榜，在很久很久以前就没有公信力了，有很多故意在盲测里刷好评的

--【玖】--：

哈哈哈哈也可能是因为opus4.6降智了踩着opus 4.6不擅长的地方上去了

--【拾】--：

这个破榜单，完全不用相信，gpt5.5排第一没问题

--【拾壹】--： ApliuQ:

有没有其他榜单的官方呢？

任何东西上了榜单，排行榜都会变味，榜单也受各种因素而被刷榜，要靠自己的实际使用体验

--【拾贰】--：

点进去看了下，这个链接就是我发的截图榜

意思是code榜有水分，这家机构只有text这一个比较准确吗？

--【拾叁】--：

野榜，opus4.7你别逗我笑，我开了max订阅，干活不如gpt5.5快，干的也没gpt5.5好，说人话现在都不如gpt5.5了，这个榜单过于垃圾了，又是自媒体凭刻板印象乱评

--【拾肆】--：

这样啊，我一直以为这个榜单很靠谱呢，有没有其他榜单的官方呢？

--【拾伍】--：

说是加强了工程能力，蒸馏GPT5.4？哈哈哈哈，反正不说人话了，好多写文章的现在都在骂，太欢乐了，满世界找OPUS4.6

--【拾陆】--：

单次对话
人类喜好

这都不是GPT擅长的，所以达到这个排名很合理

--【拾柒】--：

这个榜早就没有公信力了，也不觉得自己的测试方式有问题

属于垃圾榜

--【拾捌】--：

这个榜只推荐看 LLM Leaderboard - Best Text & Chat AI Models Compared
Hard Prompt一直是算是符合大概日用情况的当然也有例外就是还是推荐参考不同的榜单

--【拾玖】--：

众所周知国产特色：跑分没输过体验没赢过

标签：OpenAI 人工智能