GLM 5.1 实力讨论
- 内容介绍
- 文章标签
- 相关推荐
佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?
image1464×507 39.7 KB
--【壹】--:
亲测,做个任务看似做的很完整,分析头头是道还有思考,但是老有问题都得修好几遍还不一定修好
--【贰】--:
我也刚想说,因为对于厂商来讲,识别自家模型简直手按把掐,甚至留些后门提示词
--【叁】--:
这个是什么网站,看起来国产模型被吊打很严重
--【肆】--:
我使用感受上我觉得已经蛮不错的了,相比于minimax2.1/2.5,glm 5.1对代码的理解和修改相对比较正确了,偷懒情况不是很严重,claude 4.6/4.6 opus我也用过,我的使用感受是,claude的模型在你给的指令不是很清晰的时候,也能够比较好的完成任务,但是glm等国产模型如果给一个不是特别清晰的plan,会比较容易出问题,第二个是在涉及到代码报错的时候,Claude解决问题的速度还是很快,不管是glm5.1还是5,解决问题特别容易无限尝试,一直鬼打墙,除非你自己找到一个好的修改方案,或者让他使用网络搜索的话,他很难很快的解决问题,会一直浪费你的token。
佬友们,今天逛arena时无意中发现 GLM 5.1 的code 水平尽然能排第三,比一些大家熟知的模型排名还高,各位佬结合自己的使用体验,排名有多少可信度?
image1464×507 39.7 KB
--【壹】--:
亲测,做个任务看似做的很完整,分析头头是道还有思考,但是老有问题都得修好几遍还不一定修好
--【贰】--:
我也刚想说,因为对于厂商来讲,识别自家模型简直手按把掐,甚至留些后门提示词
--【叁】--:
这个是什么网站,看起来国产模型被吊打很严重
--【肆】--:
我使用感受上我觉得已经蛮不错的了,相比于minimax2.1/2.5,glm 5.1对代码的理解和修改相对比较正确了,偷懒情况不是很严重,claude 4.6/4.6 opus我也用过,我的使用感受是,claude的模型在你给的指令不是很清晰的时候,也能够比较好的完成任务,但是glm等国产模型如果给一个不是特别清晰的plan,会比较容易出问题,第二个是在涉及到代码报错的时候,Claude解决问题的速度还是很快,不管是glm5.1还是5,解决问题特别容易无限尝试,一直鬼打墙,除非你自己找到一个好的修改方案,或者让他使用网络搜索的话,他很难很快的解决问题,会一直浪费你的token。

