GPT-5.5模型的Arena的评分排行出来了

2026-04-29 08:242阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

从官方发文搬过来的,没想到的是代码这块居然会被glm、kimi压下去。详细内容如下:

IMG33291340×1344 164 KB
IMG33291340×1344 164 KB
IMG33311340×1344 169 KB
IMG33321340×1344 162 KB
IMG33331200×1077 85.9 KB
IMG33341200×1036 80.8 KB

网友解答:
--【壹】--:

看到GLM 5.1比sonnet 4.6高。我笑了笑没说话hh


--【贰】--:

这榜单看着很好笑,这编程能力估计测的都是前端的分数吧


--【叁】--:

这是 Hard Prompt 不是 Text 总榜


--【肆】--:

问题是我认识的老外没有几个现在不骂OPUS4.7的,因为也不说人话了,哈哈哈,都想用回OPUS4.6,国人也差不多


--【伍】--:

5.5还是干不过4.7?连4.6都干不过,这跟老友们的使用体验反馈结果有偏差啊。


--【陆】--:

GLM5.1比SONNET高?然后GPT没有狗屎OPUS 4.7高?你和我说这个榜单不是野榜?你看看国外都怎么喷OPUS4.7的,不说人话了都,当然你要是说它只测前端,那我服,因为GPT的前端的确拉,哈哈哈


--【柒】--:

image1308×508 45.5 KB
这是总榜,5.5还是很靠后


--【捌】--:

这个榜,在很久很久以前就没有公信力了,有很多故意在盲测里刷好评的


--【玖】--:

哈哈哈哈 也可能是因为opus4.6降智了踩着opus 4.6不擅长的地方上去了


--【拾】--:

这个破榜单,完全不用相信,gpt5.5排第一没问题


--【拾壹】--: ApliuQ:

有没有其他榜单的官方呢?

任何东西上了榜单,排行榜都会变味,榜单也受各种因素而被刷榜,要靠自己的实际使用体验


--【拾贰】--:

点进去看了下,这个链接就是我发的截图榜

意思是code榜有水分,这家机构只有text这一个比较准确吗?


--【拾叁】--:

野榜,opus4.7你别逗我笑,我开了max订阅,干活不如gpt5.5快,干的也没gpt5.5好,说人话现在都不如gpt5.5了,这个榜单过于垃圾了,又是自媒体凭刻板印象乱评


--【拾肆】--:

这样啊,我一直以为这个榜单很靠谱呢,有没有其他榜单的官方呢?


--【拾伍】--:

说是加强了工程能力,蒸馏GPT5.4?哈哈哈哈,反正不说人话了,好多写文章的现在都在骂,太欢乐了,满世界找OPUS4.6


--【拾陆】--:

单次对话
人类喜好

这都不是GPT擅长的,所以达到这个排名很合理


--【拾柒】--:

这个榜早就没有公信力了,也不觉得自己的测试方式有问题

属于垃圾榜


--【拾捌】--:

这个榜只推荐看 LLM Leaderboard - Best Text & Chat AI Models Compared
Hard Prompt一直是算是符合大概日用情况的 当然也有例外就是 还是推荐参考不同的榜单


--【拾玖】--:

众所周知国产特色:跑分没输过 体验没赢过

问题描述:

从官方发文搬过来的,没想到的是代码这块居然会被glm、kimi压下去。详细内容如下:

IMG33291340×1344 164 KB
IMG33291340×1344 164 KB
IMG33311340×1344 169 KB
IMG33321340×1344 162 KB
IMG33331200×1077 85.9 KB
IMG33341200×1036 80.8 KB

网友解答:
--【壹】--:

看到GLM 5.1比sonnet 4.6高。我笑了笑没说话hh


--【贰】--:

这榜单看着很好笑,这编程能力估计测的都是前端的分数吧


--【叁】--:

这是 Hard Prompt 不是 Text 总榜


--【肆】--:

问题是我认识的老外没有几个现在不骂OPUS4.7的,因为也不说人话了,哈哈哈,都想用回OPUS4.6,国人也差不多


--【伍】--:

5.5还是干不过4.7?连4.6都干不过,这跟老友们的使用体验反馈结果有偏差啊。


--【陆】--:

GLM5.1比SONNET高?然后GPT没有狗屎OPUS 4.7高?你和我说这个榜单不是野榜?你看看国外都怎么喷OPUS4.7的,不说人话了都,当然你要是说它只测前端,那我服,因为GPT的前端的确拉,哈哈哈


--【柒】--:

image1308×508 45.5 KB
这是总榜,5.5还是很靠后


--【捌】--:

这个榜,在很久很久以前就没有公信力了,有很多故意在盲测里刷好评的


--【玖】--:

哈哈哈哈 也可能是因为opus4.6降智了踩着opus 4.6不擅长的地方上去了


--【拾】--:

这个破榜单,完全不用相信,gpt5.5排第一没问题


--【拾壹】--: ApliuQ:

有没有其他榜单的官方呢?

任何东西上了榜单,排行榜都会变味,榜单也受各种因素而被刷榜,要靠自己的实际使用体验


--【拾贰】--:

点进去看了下,这个链接就是我发的截图榜

意思是code榜有水分,这家机构只有text这一个比较准确吗?


--【拾叁】--:

野榜,opus4.7你别逗我笑,我开了max订阅,干活不如gpt5.5快,干的也没gpt5.5好,说人话现在都不如gpt5.5了,这个榜单过于垃圾了,又是自媒体凭刻板印象乱评


--【拾肆】--:

这样啊,我一直以为这个榜单很靠谱呢,有没有其他榜单的官方呢?


--【拾伍】--:

说是加强了工程能力,蒸馏GPT5.4?哈哈哈哈,反正不说人话了,好多写文章的现在都在骂,太欢乐了,满世界找OPUS4.6


--【拾陆】--:

单次对话
人类喜好

这都不是GPT擅长的,所以达到这个排名很合理


--【拾柒】--:

这个榜早就没有公信力了,也不觉得自己的测试方式有问题

属于垃圾榜


--【拾捌】--:

这个榜只推荐看 LLM Leaderboard - Best Text & Chat AI Models Compared
Hard Prompt一直是算是符合大概日用情况的 当然也有例外就是 还是推荐参考不同的榜单


--【拾玖】--:

众所周知国产特色:跑分没输过 体验没赢过