GPT-5.5模型的Arena的评分排行出来了
- 内容介绍
- 文章标签
- 相关推荐
从官方发文搬过来的,没想到的是代码这块居然会被glm、kimi压下去。详细内容如下:
IMG33291340×1344 164 KB
IMG33291340×1344 164 KB
IMG33311340×1344 169 KB
IMG33321340×1344 162 KB
IMG33331200×1077 85.9 KB
IMG33341200×1036 80.8 KB
--【壹】--:
看到GLM 5.1比sonnet 4.6高。我笑了笑没说话hh
--【贰】--:
这榜单看着很好笑,这编程能力估计测的都是前端的分数吧
--【叁】--:
这是 Hard Prompt 不是 Text 总榜
--【肆】--:
问题是我认识的老外没有几个现在不骂OPUS4.7的,因为也不说人话了,哈哈哈,都想用回OPUS4.6,国人也差不多
--【伍】--:
5.5还是干不过4.7?连4.6都干不过,这跟老友们的使用体验反馈结果有偏差啊。
--【陆】--:
GLM5.1比SONNET高?然后GPT没有狗屎OPUS 4.7高?你和我说这个榜单不是野榜?你看看国外都怎么喷OPUS4.7的,不说人话了都,当然你要是说它只测前端,那我服,因为GPT的前端的确拉,哈哈哈
--【柒】--:
image1308×508 45.5 KB
这是总榜,5.5还是很靠后
--【捌】--:
这个榜,在很久很久以前就没有公信力了,有很多故意在盲测里刷好评的
--【玖】--:
哈哈哈哈 也可能是因为opus4.6降智了踩着opus 4.6不擅长的地方上去了
--【拾】--:
这个破榜单,完全不用相信,gpt5.5排第一没问题
--【拾壹】--: ApliuQ:
有没有其他榜单的官方呢?
任何东西上了榜单,排行榜都会变味,榜单也受各种因素而被刷榜,要靠自己的实际使用体验
--【拾贰】--:
点进去看了下,这个链接就是我发的截图榜
意思是code榜有水分,这家机构只有text这一个比较准确吗?
--【拾叁】--:
野榜,opus4.7你别逗我笑,我开了max订阅,干活不如gpt5.5快,干的也没gpt5.5好,说人话现在都不如gpt5.5了,这个榜单过于垃圾了,又是自媒体凭刻板印象乱评
--【拾肆】--:
这样啊,我一直以为这个榜单很靠谱呢,有没有其他榜单的官方呢?
--【拾伍】--:
说是加强了工程能力,蒸馏GPT5.4?哈哈哈哈,反正不说人话了,好多写文章的现在都在骂,太欢乐了,满世界找OPUS4.6
--【拾陆】--:
单次对话
人类喜好
这都不是GPT擅长的,所以达到这个排名很合理
--【拾柒】--:
这个榜早就没有公信力了,也不觉得自己的测试方式有问题
属于垃圾榜
--【拾捌】--:
这个榜只推荐看 LLM Leaderboard - Best Text & Chat AI Models Compared
Hard Prompt一直是算是符合大概日用情况的 当然也有例外就是 还是推荐参考不同的榜单
--【拾玖】--:
众所周知国产特色:跑分没输过 体验没赢过
从官方发文搬过来的,没想到的是代码这块居然会被glm、kimi压下去。详细内容如下:
IMG33291340×1344 164 KB
IMG33291340×1344 164 KB
IMG33311340×1344 169 KB
IMG33321340×1344 162 KB
IMG33331200×1077 85.9 KB
IMG33341200×1036 80.8 KB
--【壹】--:
看到GLM 5.1比sonnet 4.6高。我笑了笑没说话hh
--【贰】--:
这榜单看着很好笑,这编程能力估计测的都是前端的分数吧
--【叁】--:
这是 Hard Prompt 不是 Text 总榜
--【肆】--:
问题是我认识的老外没有几个现在不骂OPUS4.7的,因为也不说人话了,哈哈哈,都想用回OPUS4.6,国人也差不多
--【伍】--:
5.5还是干不过4.7?连4.6都干不过,这跟老友们的使用体验反馈结果有偏差啊。
--【陆】--:
GLM5.1比SONNET高?然后GPT没有狗屎OPUS 4.7高?你和我说这个榜单不是野榜?你看看国外都怎么喷OPUS4.7的,不说人话了都,当然你要是说它只测前端,那我服,因为GPT的前端的确拉,哈哈哈
--【柒】--:
image1308×508 45.5 KB
这是总榜,5.5还是很靠后
--【捌】--:
这个榜,在很久很久以前就没有公信力了,有很多故意在盲测里刷好评的
--【玖】--:
哈哈哈哈 也可能是因为opus4.6降智了踩着opus 4.6不擅长的地方上去了
--【拾】--:
这个破榜单,完全不用相信,gpt5.5排第一没问题
--【拾壹】--: ApliuQ:
有没有其他榜单的官方呢?
任何东西上了榜单,排行榜都会变味,榜单也受各种因素而被刷榜,要靠自己的实际使用体验
--【拾贰】--:
点进去看了下,这个链接就是我发的截图榜
意思是code榜有水分,这家机构只有text这一个比较准确吗?
--【拾叁】--:
野榜,opus4.7你别逗我笑,我开了max订阅,干活不如gpt5.5快,干的也没gpt5.5好,说人话现在都不如gpt5.5了,这个榜单过于垃圾了,又是自媒体凭刻板印象乱评
--【拾肆】--:
这样啊,我一直以为这个榜单很靠谱呢,有没有其他榜单的官方呢?
--【拾伍】--:
说是加强了工程能力,蒸馏GPT5.4?哈哈哈哈,反正不说人话了,好多写文章的现在都在骂,太欢乐了,满世界找OPUS4.6
--【拾陆】--:
单次对话
人类喜好
这都不是GPT擅长的,所以达到这个排名很合理
--【拾柒】--:
这个榜早就没有公信力了,也不觉得自己的测试方式有问题
属于垃圾榜
--【拾捌】--:
这个榜只推荐看 LLM Leaderboard - Best Text & Chat AI Models Compared
Hard Prompt一直是算是符合大概日用情况的 当然也有例外就是 还是推荐参考不同的榜单
--【拾玖】--:
众所周知国产特色:跑分没输过 体验没赢过

