智谱真成了!GLM-5.1的Coding真正意义上超越了国模最严厉的父亲Sonnet 4.5

2026-04-11 12:180阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image1648×1319 247 KB
测评网址: LLM Benchmark Dashboard
榜单作者知乎@toyama nao,在L站应该也有不少同学看过他的大模型测评,纯私有题库,很多人评价符合体感,他也是今天测了一天跑完了GLM-5.1的Coding,关于这个代码V3榜单这个链接有详细介绍:
大模型编程应用测试-V3榜单 - 知乎
各项目任务:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。

表中分数为扣分,越低越好,英文单词FAILED即字面意思无法完成项目(括号中为完成步骤),项目整体还是比较难的,GLM-5.1之前的国模基本无法完全实现三个测试项目,这次5.1终于是三个全通过了,且总扣分明显少于Sonnet4.5,离真神Opus4.6当然还有明显差距,也不用听官方吹多接近,但是真正超过了Sonnet4.5,可谓意义重大,国模真的追上来了!

网友解答:
--【壹】--:

这么强?!


--【贰】--:

佬友有实测嘛?看站里面有人实测说是蒸馏好像不太行?只是分数高?有用过的佬友嘛


--【叁】--:

我拿脚投票,好不好用是看大家用不用,安兔兔跑分吗?


--【肆】--:

按照我的理解但凡超过了 0.1 应该热搜就满天飞了。所以应该是还是和御三家有蛮大的差距的


--【伍】--:

你看看问怎么抢glm的套餐的多不多。。。

阅读全文
问题描述:

image1648×1319 247 KB
测评网址: LLM Benchmark Dashboard
榜单作者知乎@toyama nao,在L站应该也有不少同学看过他的大模型测评,纯私有题库,很多人评价符合体感,他也是今天测了一天跑完了GLM-5.1的Coding,关于这个代码V3榜单这个链接有详细介绍:
大模型编程应用测试-V3榜单 - 知乎
各项目任务:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。

表中分数为扣分,越低越好,英文单词FAILED即字面意思无法完成项目(括号中为完成步骤),项目整体还是比较难的,GLM-5.1之前的国模基本无法完全实现三个测试项目,这次5.1终于是三个全通过了,且总扣分明显少于Sonnet4.5,离真神Opus4.6当然还有明显差距,也不用听官方吹多接近,但是真正超过了Sonnet4.5,可谓意义重大,国模真的追上来了!

网友解答:
--【壹】--:

这么强?!


--【贰】--:

佬友有实测嘛?看站里面有人实测说是蒸馏好像不太行?只是分数高?有用过的佬友嘛


--【叁】--:

我拿脚投票,好不好用是看大家用不用,安兔兔跑分吗?


--【肆】--:

按照我的理解但凡超过了 0.1 应该热搜就满天飞了。所以应该是还是和御三家有蛮大的差距的


--【伍】--:

你看看问怎么抢glm的套餐的多不多。。。

阅读全文