智谱真成了！GLM-5.1的Coding真正意义上超越了国模最严厉的父亲Sonnet 4.5

2026-04-11 12:181阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

image1648×1319 247 KB
测评网址： LLM Benchmark Dashboard
榜单作者知乎@toyama nao，在L站应该也有不少同学看过他的大模型测评，纯私有题库，很多人评价符合体感，他也是今天测了一天跑完了GLM-5.1的Coding，关于这个代码V3榜单这个链接有详细介绍：
大模型编程应用测试-V3榜单 - 知乎
各项目任务：
C工程：以swift语言编写面向macOS的OpenGL渲染器，考察小众语言，图形领域知识，重交互。
D工程：基于Flutter开发一款全功能的聊天软件，同时以golang开发对应服务端。考察移动端开发，数据库，多种网络通信处理。
E工程：自选技术栈，开发纯网页端视频剪辑应用。考察前端技术栈，音视频处理，复杂状态管理等。

表中分数为扣分，越低越好，英文单词FAILED即字面意思无法完成项目（括号中为完成步骤），项目整体还是比较难的，GLM-5.1之前的国模基本无法完全实现三个测试项目，这次5.1终于是三个全通过了，且总扣分明显少于Sonnet4.5，离真神Opus4.6当然还有明显差距，也不用听官方吹多接近，但是真正超过了Sonnet4.5,可谓意义重大，国模真的追上来了！

网友解答：

--【壹】--：

这么强？！

--【贰】--：

佬友有实测嘛？看站里面有人实测说是蒸馏好像不太行？只是分数高？有用过的佬友嘛

--【叁】--：

我拿脚投票，好不好用是看大家用不用，安兔兔跑分吗？

--【肆】--：

按照我的理解但凡超过了 0.1 应该热搜就满天飞了。所以应该是还是和御三家有蛮大的差距的

--【伍】--：

你看看问怎么抢glm的套餐的多不多。。。

都是真买啊

--【陆】--：

评分只是一方面，很多都是评分没输过的实际上还是有一段距离的

--【柒】--：

要不看看智谱用户群现在的现状？

--【捌】--：

这么说话很有意思？

--【玖】--：

主要是太缺算力了，还要超售，依旧比不上claude

--【拾】--：

这个评分就是跑有不小难度的完整项目测出来的很有参考价值

--【拾壹】--：

这次官方没有公开跑分成绩啊

只公开了智谱内部的claude code的任务测评的评分，说这个场景下，相对glm-5有大幅提升

这个版本应该是针对cc的真实任务场景优化的

--【拾贰】--：

我是秦始皇

--【拾叁】--：

关键是这个评分不是简单问几个问题测出来的而是完整的大项目主楼里加了工程介绍难度不小的所以能三个都完整跑完真的意义非凡让大家看到国产和头部的差距真的有在缩小

--【拾肆】--：

用钱投票

真花钱的时候，就知道国产模型的价值了

--【拾伍】--：

每天都在无限接近TAT
过两天claude又发新玩意儿就又开始循环了

--【拾陆】--：

真花钱大家不都在问怎么不封号吗

--【拾柒】--：

glm之前超售成那样，低价就…

--【拾捌】--：

claude-5一发大家都回到从前

不过难得有国产模型能上座了

--【拾玖】--：

飞书嘛？我去围观一下

标签：Claude 人工智能软件开发