智谱真成了!GLM-5.1的Coding真正意义上超越了国模最严厉的父亲Sonnet 4.5
- 内容介绍
- 文章标签
- 相关推荐
image1648×1319 247 KB
测评网址: LLM Benchmark Dashboard
榜单作者知乎@toyama nao,在L站应该也有不少同学看过他的大模型测评,纯私有题库,很多人评价符合体感,他也是今天测了一天跑完了GLM-5.1的Coding,关于这个代码V3榜单这个链接有详细介绍:
大模型编程应用测试-V3榜单 - 知乎
各项目任务:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。
表中分数为扣分,越低越好,英文单词FAILED即字面意思无法完成项目(括号中为完成步骤),项目整体还是比较难的,GLM-5.1之前的国模基本无法完全实现三个测试项目,这次5.1终于是三个全通过了,且总扣分明显少于Sonnet4.5,离真神Opus4.6当然还有明显差距,也不用听官方吹多接近,但是真正超过了Sonnet4.5,可谓意义重大,国模真的追上来了!
网友解答:--【壹】--:
这么强?!
--【贰】--:
佬友有实测嘛?看站里面有人实测说是蒸馏好像不太行?只是分数高?有用过的佬友嘛
--【叁】--:
我拿脚投票,好不好用是看大家用不用,安兔兔跑分吗?
--【肆】--:
按照我的理解但凡超过了 0.1 应该热搜就满天飞了。所以应该是还是和御三家有蛮大的差距的
--【伍】--:
你看看问怎么抢glm的套餐的多不多。。。
都是真买啊
--【陆】--:
评分只是一方面,很多都是评分没输过的 实际上还是有一段距离的
--【柒】--:
要不看看智谱用户群现在的现状?
--【捌】--:
这么说话很有意思?
--【玖】--:
主要是太缺算力了,还要超售,依旧比不上claude
--【拾】--:
这个评分就是跑有不小难度的完整项目测出来的 很有参考价值
--【拾壹】--:
这次官方没有公开跑分成绩啊
只公开了智谱内部的claude code的任务测评的评分,说这个场景下,相对glm-5有大幅提升
这个版本应该是针对cc的真实任务场景优化的
--【拾贰】--:
我是秦始皇
--【拾叁】--:
关键是这个评分不是简单问几个问题测出来的 而是完整的大项目 主楼里加了工程介绍 难度不小的 所以能三个都完整跑完 真的意义非凡 让大家看到国产和头部的差距真的有在缩小
--【拾肆】--:
用钱投票
真花钱的时候,就知道国产模型的价值了
--【拾伍】--:
每天都在无限接近TAT
过两天claude又发新玩意儿就又开始循环了
--【拾陆】--:
真花钱大家不都在问怎么不封号吗
--【拾柒】--:
glm之前超售成那样,低价就…
--【拾捌】--:
claude-5一发 大家都回到从前
不过难得有国产模型能上座了
--【拾玖】--:
飞书嘛?我去围观一下
image1648×1319 247 KB
测评网址: LLM Benchmark Dashboard
榜单作者知乎@toyama nao,在L站应该也有不少同学看过他的大模型测评,纯私有题库,很多人评价符合体感,他也是今天测了一天跑完了GLM-5.1的Coding,关于这个代码V3榜单这个链接有详细介绍:
大模型编程应用测试-V3榜单 - 知乎
各项目任务:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。
表中分数为扣分,越低越好,英文单词FAILED即字面意思无法完成项目(括号中为完成步骤),项目整体还是比较难的,GLM-5.1之前的国模基本无法完全实现三个测试项目,这次5.1终于是三个全通过了,且总扣分明显少于Sonnet4.5,离真神Opus4.6当然还有明显差距,也不用听官方吹多接近,但是真正超过了Sonnet4.5,可谓意义重大,国模真的追上来了!
网友解答:--【壹】--:
这么强?!
--【贰】--:
佬友有实测嘛?看站里面有人实测说是蒸馏好像不太行?只是分数高?有用过的佬友嘛
--【叁】--:
我拿脚投票,好不好用是看大家用不用,安兔兔跑分吗?
--【肆】--:
按照我的理解但凡超过了 0.1 应该热搜就满天飞了。所以应该是还是和御三家有蛮大的差距的
--【伍】--:
你看看问怎么抢glm的套餐的多不多。。。
都是真买啊
--【陆】--:
评分只是一方面,很多都是评分没输过的 实际上还是有一段距离的
--【柒】--:
要不看看智谱用户群现在的现状?
--【捌】--:
这么说话很有意思?
--【玖】--:
主要是太缺算力了,还要超售,依旧比不上claude
--【拾】--:
这个评分就是跑有不小难度的完整项目测出来的 很有参考价值
--【拾壹】--:
这次官方没有公开跑分成绩啊
只公开了智谱内部的claude code的任务测评的评分,说这个场景下,相对glm-5有大幅提升
这个版本应该是针对cc的真实任务场景优化的
--【拾贰】--:
我是秦始皇
--【拾叁】--:
关键是这个评分不是简单问几个问题测出来的 而是完整的大项目 主楼里加了工程介绍 难度不小的 所以能三个都完整跑完 真的意义非凡 让大家看到国产和头部的差距真的有在缩小
--【拾肆】--:
用钱投票
真花钱的时候,就知道国产模型的价值了
--【拾伍】--:
每天都在无限接近TAT
过两天claude又发新玩意儿就又开始循环了
--【拾陆】--:
真花钱大家不都在问怎么不封号吗
--【拾柒】--:
glm之前超售成那样,低价就…
--【拾捌】--:
claude-5一发 大家都回到从前
不过难得有国产模型能上座了
--【拾玖】--:
飞书嘛?我去围观一下

