glm5.1开源,官方给的排名到底是什么野鸡排名
- 内容介绍
- 文章标签
- 相关推荐
1d05a630fa6d58c003558993afc7b02c882×1920 180 KB
什么排名情况下5.4能比opus4.6高啊,放个这个数据纯往自己连上贴金
--【壹】--:
gpt5.4可能还真比opus4.6强,在大部分开发场景下。但glm5.1是没这么强的
--【贰】--:
我觉得纯论编码来说5.4并不输4.6opus。很明显的。opus赢的是其他的地方
--【叁】--:
各家的coding plan都量化,智谱国内平台也量化,用户都还没体验到真正满血的glm5.1。希望智谱这次调整coding plan能至少不量化吧,CoT倒不需要这么长,这么长算力当然不够,如果像Claude一样预训练做得这么好,模式匹配准确,大部分场景倒也不用开think
--【肆】--:
5.4在很多排行榜都比4.6 opus强的
不过,有人说OpenAI 刷分了
--【伍】--: 马克MkSaMa:
什么排名情况下5.4能比opus4.6高啊
对于编码方面,除了前端相关之外,5.4都比4.6强了已经
当然了这几个国模就纯属乱排了
不过好像说GLM-5.1还蛮不错的,可以打一打Sonnet 4.5了
--【陆】--:
确实,就这个排名我看不出任何的意义,纯粹是想赶在v4发布前抢一波热度。目前根据我这边几个群友试过v4来写前端能力可以和gemini媲美,要是还能维持在现在的api价格那简直无敌了
--【柒】--:
不是免费的吗)
开源来说,应该会很多免费给你用来吸引顾客,
官网也可以逆向)
不过貌似只有64-128k
--【捌】--:
glm5.1 距离 gpt5.4 还有一整代的差距
--【玖】--:
opus编码实战没输过,gpt会犯拗,有智商但不顺手
--【拾】--:
这里面
minimax 还>kimi 呢
--【拾壹】--:
terminal bench2是吧 不过win下命令行5.4确实比opus4.6强 前端5.4感觉完全是被opus吊打的(考虑到5.4经常乱改样式 那还不如5.2)
--【拾贰】--:
这何尝不是另一种 context engineering harness engineering
--【拾叁】--:
我倒是觉得单纯从glm 5.1模型能力上应该差不多。毕竟测评估计都是算力给的足足的。大多数使用不佳的情况估计都和算力给的不足有关系。
--【拾肆】--:
感觉乱排的吧这个,minimax应该最拉的,而且kimi理论上也比qwen强或者差不多
--【拾伍】--:
刷分可以理解,无脑刷分就没必要了,大家都清楚什么实力
1d05a630fa6d58c003558993afc7b02c882×1920 180 KB
什么排名情况下5.4能比opus4.6高啊,放个这个数据纯往自己连上贴金
--【壹】--:
gpt5.4可能还真比opus4.6强,在大部分开发场景下。但glm5.1是没这么强的
--【贰】--:
我觉得纯论编码来说5.4并不输4.6opus。很明显的。opus赢的是其他的地方
--【叁】--:
各家的coding plan都量化,智谱国内平台也量化,用户都还没体验到真正满血的glm5.1。希望智谱这次调整coding plan能至少不量化吧,CoT倒不需要这么长,这么长算力当然不够,如果像Claude一样预训练做得这么好,模式匹配准确,大部分场景倒也不用开think
--【肆】--:
5.4在很多排行榜都比4.6 opus强的
不过,有人说OpenAI 刷分了
--【伍】--: 马克MkSaMa:
什么排名情况下5.4能比opus4.6高啊
对于编码方面,除了前端相关之外,5.4都比4.6强了已经
当然了这几个国模就纯属乱排了
不过好像说GLM-5.1还蛮不错的,可以打一打Sonnet 4.5了
--【陆】--:
确实,就这个排名我看不出任何的意义,纯粹是想赶在v4发布前抢一波热度。目前根据我这边几个群友试过v4来写前端能力可以和gemini媲美,要是还能维持在现在的api价格那简直无敌了
--【柒】--:
不是免费的吗)
开源来说,应该会很多免费给你用来吸引顾客,
官网也可以逆向)
不过貌似只有64-128k
--【捌】--:
glm5.1 距离 gpt5.4 还有一整代的差距
--【玖】--:
opus编码实战没输过,gpt会犯拗,有智商但不顺手
--【拾】--:
这里面
minimax 还>kimi 呢
--【拾壹】--:
terminal bench2是吧 不过win下命令行5.4确实比opus4.6强 前端5.4感觉完全是被opus吊打的(考虑到5.4经常乱改样式 那还不如5.2)
--【拾贰】--:
这何尝不是另一种 context engineering harness engineering
--【拾叁】--:
我倒是觉得单纯从glm 5.1模型能力上应该差不多。毕竟测评估计都是算力给的足足的。大多数使用不佳的情况估计都和算力给的不足有关系。
--【拾肆】--:
感觉乱排的吧这个,minimax应该最拉的,而且kimi理论上也比qwen强或者差不多
--【拾伍】--:
刷分可以理解,无脑刷分就没必要了,大家都清楚什么实力

