GLM 5.1 实力讨论

2026-04-13 12:371阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?
image1464×507 39.7 KB

网友解答:
--【壹】--:

亲测,做个任务看似做的很完整,分析头头是道还有思考,但是老有问题都得修好几遍还不一定修好


--【贰】--:

我也刚想说,因为对于厂商来讲,识别自家模型简直手按把掐,甚至留些后门提示词


--【叁】--:

这个是什么网站,看起来国产模型被吊打很严重


--【肆】--:

我使用感受上我觉得已经蛮不错的了,相比于minimax2.1/2.5,glm 5.1对代码的理解和修改相对比较正确了,偷懒情况不是很严重,claude 4.6/4.6 opus我也用过,我的使用感受是,claude的模型在你给的指令不是很清晰的时候,也能够比较好的完成任务,但是glm等国产模型如果给一个不是特别清晰的plan,会比较容易出问题,第二个是在涉及到代码报错的时候,Claude解决问题的速度还是很快,不管是glm5.1还是5,解决问题特别容易无限尝试,一直鬼打墙,除非你自己找到一个好的修改方案,或者让他使用网络搜索的话,他很难很快的解决问题,会一直浪费你的token。

不过,除了以上问题,目前glm的最大问题是请求失败的次数太多啦!不是提示该模型访问量过大,就是网络错误联系客服,甚至还有一些模型奇妙的错误,pro老套餐用户很难受


--【伍】--:

有的,厂商直接注册一堆号,然后根据训练的发现的模型特性,找到自家模型


--【陆】--:

佬,这是arena,一个大模型竞技场,不过国产模型被吊打也不是一两天了


--【柒】--:

佬的意思,GLM 5.1的输出质量很大程度上还是比较依赖提示词的质量,对于一个不太清晰的指令可能遵循不会太到位,可能更适合有经验的开发者?


--【捌】--:

对 国产模型里面 我用过minimax、glm

感受就是提示词稍微清楚的话 glm5.1完成的效果最不错,glm5容易偷懒,minimax 2.7有一段时间比较随机,这些天我用着正常了,如果glm不可用的时候我会切到2.7用用

glm5.1也有bug,比如说有乱码问题、有概率一直重复等


--【玖】--:

国产的最好选择,基本真正用于生产环境没啥问题吧


--【拾】--:

之前在黑与白公益站使用 GLM 5.1 测试过

语言风格很像 Claude

但是个人感觉打不过 Claude sonnet 4.6


--【拾壹】--:

还是有一点点问题的,如果是复杂一些的,建议上GPT来review一下,可能会有一点BUG


--【拾贰】--: sail :

佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?

还在试用glm 5.1,目前体感和gpt5.4差距不是很大


--【拾叁】--:

Sonnet4.6肯定比不过Opus4.5的,甚至还没Sonnet4.5可靠


--【拾肆】--:

≈Sonnet4.6应该是,因为我感觉基础的前后端需求都够了


--【拾伍】--:

真是这样的话,那挺有竞争力了,国模平替指日可待


--【拾陆】--:

听说这种网站也会有刷分的现象,不知道真假


--【拾柒】--:

coding plan性价比之选。
但工作上的需求还是opus吧,贵点,但好用。


--【拾捌】--:

因为这个是各纯搞agent和复杂编码的模型。。 不是通用大模型。 相当于奔着OPus去的。。
sonet相对来说是通用模型。 两个其实就不是一个设计方向的


--【拾玖】--: sail :

arena

arena早就没有人当成评测
聊天本来已经不是LLM的主战场
而且arena只是大家的白嫖工具
我估计大概这网站会逐渐消亡

问题描述:

佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?
image1464×507 39.7 KB

网友解答:
--【壹】--:

亲测,做个任务看似做的很完整,分析头头是道还有思考,但是老有问题都得修好几遍还不一定修好


--【贰】--:

我也刚想说,因为对于厂商来讲,识别自家模型简直手按把掐,甚至留些后门提示词


--【叁】--:

这个是什么网站,看起来国产模型被吊打很严重


--【肆】--:

我使用感受上我觉得已经蛮不错的了,相比于minimax2.1/2.5,glm 5.1对代码的理解和修改相对比较正确了,偷懒情况不是很严重,claude 4.6/4.6 opus我也用过,我的使用感受是,claude的模型在你给的指令不是很清晰的时候,也能够比较好的完成任务,但是glm等国产模型如果给一个不是特别清晰的plan,会比较容易出问题,第二个是在涉及到代码报错的时候,Claude解决问题的速度还是很快,不管是glm5.1还是5,解决问题特别容易无限尝试,一直鬼打墙,除非你自己找到一个好的修改方案,或者让他使用网络搜索的话,他很难很快的解决问题,会一直浪费你的token。

不过,除了以上问题,目前glm的最大问题是请求失败的次数太多啦!不是提示该模型访问量过大,就是网络错误联系客服,甚至还有一些模型奇妙的错误,pro老套餐用户很难受


--【伍】--:

有的,厂商直接注册一堆号,然后根据训练的发现的模型特性,找到自家模型


--【陆】--:

佬,这是arena,一个大模型竞技场,不过国产模型被吊打也不是一两天了


--【柒】--:

佬的意思,GLM 5.1的输出质量很大程度上还是比较依赖提示词的质量,对于一个不太清晰的指令可能遵循不会太到位,可能更适合有经验的开发者?


--【捌】--:

对 国产模型里面 我用过minimax、glm

感受就是提示词稍微清楚的话 glm5.1完成的效果最不错,glm5容易偷懒,minimax 2.7有一段时间比较随机,这些天我用着正常了,如果glm不可用的时候我会切到2.7用用

glm5.1也有bug,比如说有乱码问题、有概率一直重复等


--【玖】--:

国产的最好选择,基本真正用于生产环境没啥问题吧


--【拾】--:

之前在黑与白公益站使用 GLM 5.1 测试过

语言风格很像 Claude

但是个人感觉打不过 Claude sonnet 4.6


--【拾壹】--:

还是有一点点问题的,如果是复杂一些的,建议上GPT来review一下,可能会有一点BUG


--【拾贰】--: sail :

佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?

还在试用glm 5.1,目前体感和gpt5.4差距不是很大


--【拾叁】--:

Sonnet4.6肯定比不过Opus4.5的,甚至还没Sonnet4.5可靠


--【拾肆】--:

≈Sonnet4.6应该是,因为我感觉基础的前后端需求都够了


--【拾伍】--:

真是这样的话,那挺有竞争力了,国模平替指日可待


--【拾陆】--:

听说这种网站也会有刷分的现象,不知道真假


--【拾柒】--:

coding plan性价比之选。
但工作上的需求还是opus吧,贵点,但好用。


--【拾捌】--:

因为这个是各纯搞agent和复杂编码的模型。。 不是通用大模型。 相当于奔着OPus去的。。
sonet相对来说是通用模型。 两个其实就不是一个设计方向的


--【拾玖】--: sail :

arena

arena早就没有人当成评测
聊天本来已经不是LLM的主战场
而且arena只是大家的白嫖工具
我估计大概这网站会逐渐消亡