GLM 5.1测评:第一梯队的敲门砖
- 内容介绍
- 文章标签
- 相关推荐
先放bench
image947×418 9.03 KB
赶超了四个月前的模型opus 4.5(不过当时使用反重力测试的,可能会有一些差别)
但是和4.5系列一个梯队是没问题的
代码水平中等偏上
image550×550 45.3 KB
一些实现的想法很好,但会被小bug绊住
image1141×722 111 KB
bench内题目需要被返修的也显著减少
image775×583 42.2 KB
但是问题也很显著,GLM 5.1会在思维链中大量打草稿,导致经常爆思考。如果是出字了爆还能继续,在思维链里把token耗尽就只能reroll了
如果开源的话可以夸一夸智谱,如果闭源还涨价我要骂了()
image959×796 87.5 KB
现在有点试探市场反应的意味呢
--【壹】--: Ri Sy:
我不可能理解
这是何意
--【贰】--:
glm 5 turbo就没开
--【叁】--:
这个到可以理解。我怀疑GLM 5turbo本来就是GLM 5的一个延伸吧。不算开发的主流线。
话说回来,现在国外风控这么严。的确使用vibe coding渠道要多元化了,GLM 5.1可以进去考虑范围内了
--【肆】--:
我这可以超过 30 分钟,openclaw 自动运行调试代码,控制 Claude code 稳定运行 超过 30 分钟
--【伍】--:
你用过GLM 5.1 吗
--【陆】--:
总是开源的吧。GLM5我记得都是开源的。国内绝大部分都是开源的
--【柒】--:
它其他能力怎么样呀?比如说数学
--【捌】--:
我理解是这样的,turbo 是针对 openclaw 微调的,但是效果要超出预期,官方就沿用了这种方法微调
--【玖】--:
虽然但是这个html小游戏有点好玩
--【拾】--:
glm 其他能力怎么样呀,除了coding
--【拾壹】--:
5.4在我这就是一坨,降智降的根本没法用
--【拾贰】--:
试想如果御三家集体大风控(比现在还严格)。只能投奔GLM了
--【拾叁】--:
不要骗自己,还和4.5一个梯队了。。。大家都是天天用GPT5.4的人
--【拾肆】--:
4.5都是四五个月前的模型了,GPT5.4在这个榜单的第一位
--【拾伍】--:
我不可能理解,glm5是个有bug的刷题作弊模型,turbo才修了这个bug,开源一个有bug的,闭源正常的,我还是不能理解。
--【拾陆】--: Ri Sy:
glm5是个有bug的刷题作弊模型
这样吗?我没有细看模型细节。赌一把吧。我觉得国内厂商开源才是主流。
--【拾柒】--:
可能turbo就是5.1的早期检查点,针对龙虾特化了一下
--【拾捌】--:
还没,GLM5用了段时间放弃了,太垃圾了。在这个底子上我就不相信能做出什么大提升,顶多针对榜单刷分
--【拾玖】--:
GLM是all in coding 了吗
先放bench
image947×418 9.03 KB
赶超了四个月前的模型opus 4.5(不过当时使用反重力测试的,可能会有一些差别)
但是和4.5系列一个梯队是没问题的
代码水平中等偏上
image550×550 45.3 KB
一些实现的想法很好,但会被小bug绊住
image1141×722 111 KB
bench内题目需要被返修的也显著减少
image775×583 42.2 KB
但是问题也很显著,GLM 5.1会在思维链中大量打草稿,导致经常爆思考。如果是出字了爆还能继续,在思维链里把token耗尽就只能reroll了
如果开源的话可以夸一夸智谱,如果闭源还涨价我要骂了()
image959×796 87.5 KB
现在有点试探市场反应的意味呢
--【壹】--: Ri Sy:
我不可能理解
这是何意
--【贰】--:
glm 5 turbo就没开
--【叁】--:
这个到可以理解。我怀疑GLM 5turbo本来就是GLM 5的一个延伸吧。不算开发的主流线。
话说回来,现在国外风控这么严。的确使用vibe coding渠道要多元化了,GLM 5.1可以进去考虑范围内了
--【肆】--:
我这可以超过 30 分钟,openclaw 自动运行调试代码,控制 Claude code 稳定运行 超过 30 分钟
--【伍】--:
你用过GLM 5.1 吗
--【陆】--:
总是开源的吧。GLM5我记得都是开源的。国内绝大部分都是开源的
--【柒】--:
它其他能力怎么样呀?比如说数学
--【捌】--:
我理解是这样的,turbo 是针对 openclaw 微调的,但是效果要超出预期,官方就沿用了这种方法微调
--【玖】--:
虽然但是这个html小游戏有点好玩
--【拾】--:
glm 其他能力怎么样呀,除了coding
--【拾壹】--:
5.4在我这就是一坨,降智降的根本没法用
--【拾贰】--:
试想如果御三家集体大风控(比现在还严格)。只能投奔GLM了
--【拾叁】--:
不要骗自己,还和4.5一个梯队了。。。大家都是天天用GPT5.4的人
--【拾肆】--:
4.5都是四五个月前的模型了,GPT5.4在这个榜单的第一位
--【拾伍】--:
我不可能理解,glm5是个有bug的刷题作弊模型,turbo才修了这个bug,开源一个有bug的,闭源正常的,我还是不能理解。
--【拾陆】--: Ri Sy:
glm5是个有bug的刷题作弊模型
这样吗?我没有细看模型细节。赌一把吧。我觉得国内厂商开源才是主流。
--【拾柒】--:
可能turbo就是5.1的早期检查点,针对龙虾特化了一下
--【拾捌】--:
还没,GLM5用了段时间放弃了,太垃圾了。在这个底子上我就不相信能做出什么大提升,顶多针对榜单刷分
--【拾玖】--:
GLM是all in coding 了吗

