记一次对 GLM 5.1、KAT-Coder-Pro V2 的真实项目需求的横向评测
- 内容介绍
- 文章标签
- 相关推荐
项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
- 第一轮
- …
- 第八轮
模型来源
- GLM 5.1: 官方 Coding Plan
- KAT-Coder-Pro V2: 官方 API
速度
| 排名 | 模型 | 时间(分钟) | 备注 |
|---|---|---|---|
| 1 | Grok 4.20 0309 Reasoning | 3 | |
| 2 | Minimax M2.1 | 5 | |
| 3 | Minimax M2.5 | 6 | |
| 4 | Step-3.5-Flash | 6 | |
| 5 | Mimo V2 Omni | 7 | |
| 6 | Doubao-Seed-2.0-Lite | 7 | |
| 7 | GPT-5.4(low) | 8 | |
| 8 | Doubao-Seed-2.0-Pro | 9 | |
| 9 | Doubao-Seed-2.0-Code | 9 | |
| 10 | Qwen3-Coder-Next | 9 | |
| 11 | Claude Sonnet 4.6(high) | 9 | |
| 12 | Qwen3.5-Plus | 9 | |
| 13 | GLM-5 Turbo | 10 | |
| 14 | Minimax M2.7 | 10 | Highspeed 版本 |
| 15 | Qwen3.5-Flash | 10 | |
| 16 | GPT-5.3-Codex(medium) | 10 | |
| 17 | Gemini 3 Pro | 11 | |
| 18 | Kimi K2.5 | 11 | |
| 19 | GLM 4.7 | 12 | |
| 20 | GPT-5.4(high) | 14 | |
| 21 | Mimo V2 Pro | 15 | |
| 22 | Claude Opus 4.5 | 15 | |
| 23 | Claude Sonnet 4.5 | 16 | |
| 24 | GPT-5.3-Codex(high) | 16 | 触发了一次上下文压缩 |
| 25 | GPT-5.3-Codex(xhigh) | 16 | |
| 26 | GPT-5.4(medium) | 17 | |
| 27 | GPT-5.4(xhigh) | 18 | |
| 28 | GLM-5 | 20 | |
| 29 | DeppSeek V3.2 | 22 | |
| 30 | Gemini 3 Flash | 22 | |
| 31 | KAT-Coder-Pro V2 | 24 | |
| 31 | GPT 5.2(xhigh) | 25 | |
| 32 | Claude-Opus-4.6(Max) | 26 | |
| 33 | Gemini 3.1 Pro(high) | 29 | 受 429 请求频率限制影响 |
| 34 | Qwen3.5 9B GGUF Q4_K_XL | 35 | MBP M4 Pro 48GB 本地部署 |
| 35 | Qwen3.5 35B A3B GGUF Q4_K_XL | 36 | MBP M4 Pro 48GB 本地部署 |
令牌数
- GLM 5.1: 无法得知
- KAT-Coder-Pro V2: 15.7M(官方有统计周期,未得知具体金额)
代码行数
- GLM 5.1: +1667, -6
- KAT-Coder-Pro V2: +1592, -34
完成度
GLM 5.1
审查结论: 部分功能未实现。
详细
KAT-Coder-Pro V2
审查结论: 较多功能未实现。
详细
代码质量
GLM 5.1 和 KAT-Coder-Pro V2 的代码风格依旧经典,注释非常详细,行间注释多。
最终总结
| 排名 | 模型/层级 | 说明 |
|---|---|---|
| Tier 0 | 该等级的模型实现与线上基线高度一致。 | |
| 1 | GPT 5.4(xhigh) | |
| 2 | GPT 5.2(xhigh) | |
| 3 | GPT-5.3-Codex(xhigh) | |
| Tier 1 | 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 | |
| 4 | GPT 5.4(high) | |
| 5 | GPT 5.4(medium) | |
| 6 | GPT-5.3-Codex(high) | |
| 7 | GPT-5.3-Codex(medium) | |
| 8 | Claude Opus 4.6(Max) | |
| 9 | GPT 5.2(medium) | |
| 10 | GPT 5.4(low) | |
| 11 | GPT 5.2 Codex(xhigh) | |
| 12 | Claude Opus 4.5 | |
| 13 | Claude Sonnet 4.5 | |
| Tier 2 | 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 | |
| 14 | GLM 5.1 | |
| 14 | GLM 5 | |
| 15 | Kimi K2.5 | |
| 16 | Claude Sonnet 4.6(high) | |
| 17 | Qwen3.5-Plus | |
| 17 | KAT-Coder-Pro V2 | |
| Tier 3 | 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 | |
| 18 | GLM 5 Turbo | |
| 19 | GLM 4.7 | |
| 20 | Gemini 3.1 Pro(high) | |
| 21 | Mimo V2 Pro | |
| 22 | Mimo V2 Omni | |
| 23 | Minimax M2.7 | |
| 24 | Minimax M2.5 | |
| 25 | Step-3.5-Flash | |
| 26 | Qwen3-Coder-Next | |
| 27 | Gemini 3 Pro | |
| 28 | Gemini 3 Flash | |
| 29 | Doubao-Seed-2.0-Code | |
| 30 | Doubao-Seed-2.0-Pro | |
| 31 | Doubao-Seed-2.0-Lite | |
| 32 | Qwen3.5-Flash | |
| 33 | Qwen3.5 35B A3B GGUF Q4_K_XL | |
| 34 | Qwen3.5 9B GGUF Q4_K_XL | |
| 35 | Grok 4.20 0309 Reasoning | |
| 36 | DeepSeek V3.2 | |
| 37 | Minimax M2.1 | |
| 38 | GPT 5.1 Codex mini(medium) |
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码,在完成之后,还对所有文件进行了重新检查,可以说整个过程看起来非常严谨细致,当然由此导致的是花费的时间较长,我认为应该比 GLM 5 的时间要长(由于 VS Code 新版本突然不显示会话所花费的时间,所以这次没来得及手动计时,实在抱歉)。
GLM 5.1 的做题过程真的非常令人安心,但是很可惜,相对于国外的模型来说,奇迹没有发生,未踏入 Tier 1 的行列,但相比 GLM 5 来说,有了明显的提升,且没有编译错误,上代 GLM 5 是有一点编译错误的。
KAT-Coder-Pro V2 的做题过程相较于 GLM 5.1 来说是更常见的先阅读整个项目的代码,然后再编写代码,中途不会出现 GLM 5.1 那样回头看一下的行为,但在最后完成之后进行了一次全面的代码检查,且输出了一份完成报告。
最终,KAT-Coder-Pro V2 的完成度虽然不如 Tier 2 的其它模型,但是没有编译错误,所以不至于放在 Tier 3 模型。
这次 GLM 5.1 和 KAT-Coder-Pro V2 的表现我认为都是不错的,特别是 GLM 5.1,它展现出来的严谨程度让我有兴趣在之后继续日常使用以更深入地了解。
网友解答:--【壹】--:
有的,有的
--【贰】--:
纯编码gpt确实强,这都霸榜了,glm5.1这是gpt和Claude之下国产第一呀,符合印象
--【叁】--:
多少上下文
--【肆】--:
国产加油啊,不要再让天才们陨落了
--【伍】--:
会的,通常都是先阅读后编写,GLM 5.1 的这种频频回头的现象我没有见到过。
--【陆】--:
glm 5.1这么强
快手那个模型看上去也不错,之前都没听说过,话说快手有coding plan吗?
--【柒】--:
还是没能进到佬的T1榜单么,可惜。
--【捌】--:
关注佬友,每次都不错过最新发帖
--【玖】--:
国产应该快了
--【拾】--:
感谢佬这么详细。
自己昨天晚上开始用 glm5.1 体感比 glm5 耗时久、考虑全面了些,token消耗也跟着噌噌噌涨 早点看到佬的帖子就不会去买 minimax 了 m2.7 让它做分析都有点嫌弃……
--【拾壹】--:
感谢佬友分享
--【拾贰】--:
感谢佬,正想观察一下GLM5.1的表现
--【拾叁】--: SmallMain:
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码
确实是,我现在在测也是把整个项目每个都读了一遍,导致花的时间巨久
--【拾肆】--:
这样看gpt还是太超标了
--【拾伍】--: SmallMain:
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码,在完成之后,还对所有文件进行了重新检查,可以说整个过程看起来非常严谨细致,当然由此导致的是花费的时间较长,我认为应该比 GLM 5 的时间要长(由于 VS Code 新版本突然不显示会话所花费的时间,所以这次没来得及手动计时,实在抱歉)。
GPT会严谨阅读整个项目的代码吗
--【拾陆】--:
到了5.1 还是没有越过sonnet 4.5吗
--【拾柒】--:
还是gpt强
--【拾捌】--:
很不错,毕竟前两档基本都是很贵的。
国内本来就缺卡,也不大可能出 xhigh 这类高消耗的模型,差距没有那么大。
--【拾玖】--:
佬的测试很有价值,目前而言的确GLM不太适合做游戏,尤其UNITY项目,GPT5.4毫无压力,甚至GODOT项目也迎刃有余
项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
- 第一轮
- …
- 第八轮
模型来源
- GLM 5.1: 官方 Coding Plan
- KAT-Coder-Pro V2: 官方 API
速度
| 排名 | 模型 | 时间(分钟) | 备注 |
|---|---|---|---|
| 1 | Grok 4.20 0309 Reasoning | 3 | |
| 2 | Minimax M2.1 | 5 | |
| 3 | Minimax M2.5 | 6 | |
| 4 | Step-3.5-Flash | 6 | |
| 5 | Mimo V2 Omni | 7 | |
| 6 | Doubao-Seed-2.0-Lite | 7 | |
| 7 | GPT-5.4(low) | 8 | |
| 8 | Doubao-Seed-2.0-Pro | 9 | |
| 9 | Doubao-Seed-2.0-Code | 9 | |
| 10 | Qwen3-Coder-Next | 9 | |
| 11 | Claude Sonnet 4.6(high) | 9 | |
| 12 | Qwen3.5-Plus | 9 | |
| 13 | GLM-5 Turbo | 10 | |
| 14 | Minimax M2.7 | 10 | Highspeed 版本 |
| 15 | Qwen3.5-Flash | 10 | |
| 16 | GPT-5.3-Codex(medium) | 10 | |
| 17 | Gemini 3 Pro | 11 | |
| 18 | Kimi K2.5 | 11 | |
| 19 | GLM 4.7 | 12 | |
| 20 | GPT-5.4(high) | 14 | |
| 21 | Mimo V2 Pro | 15 | |
| 22 | Claude Opus 4.5 | 15 | |
| 23 | Claude Sonnet 4.5 | 16 | |
| 24 | GPT-5.3-Codex(high) | 16 | 触发了一次上下文压缩 |
| 25 | GPT-5.3-Codex(xhigh) | 16 | |
| 26 | GPT-5.4(medium) | 17 | |
| 27 | GPT-5.4(xhigh) | 18 | |
| 28 | GLM-5 | 20 | |
| 29 | DeppSeek V3.2 | 22 | |
| 30 | Gemini 3 Flash | 22 | |
| 31 | KAT-Coder-Pro V2 | 24 | |
| 31 | GPT 5.2(xhigh) | 25 | |
| 32 | Claude-Opus-4.6(Max) | 26 | |
| 33 | Gemini 3.1 Pro(high) | 29 | 受 429 请求频率限制影响 |
| 34 | Qwen3.5 9B GGUF Q4_K_XL | 35 | MBP M4 Pro 48GB 本地部署 |
| 35 | Qwen3.5 35B A3B GGUF Q4_K_XL | 36 | MBP M4 Pro 48GB 本地部署 |
令牌数
- GLM 5.1: 无法得知
- KAT-Coder-Pro V2: 15.7M(官方有统计周期,未得知具体金额)
代码行数
- GLM 5.1: +1667, -6
- KAT-Coder-Pro V2: +1592, -34
完成度
GLM 5.1
审查结论: 部分功能未实现。
详细
KAT-Coder-Pro V2
审查结论: 较多功能未实现。
详细
代码质量
GLM 5.1 和 KAT-Coder-Pro V2 的代码风格依旧经典,注释非常详细,行间注释多。
最终总结
| 排名 | 模型/层级 | 说明 |
|---|---|---|
| Tier 0 | 该等级的模型实现与线上基线高度一致。 | |
| 1 | GPT 5.4(xhigh) | |
| 2 | GPT 5.2(xhigh) | |
| 3 | GPT-5.3-Codex(xhigh) | |
| Tier 1 | 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 | |
| 4 | GPT 5.4(high) | |
| 5 | GPT 5.4(medium) | |
| 6 | GPT-5.3-Codex(high) | |
| 7 | GPT-5.3-Codex(medium) | |
| 8 | Claude Opus 4.6(Max) | |
| 9 | GPT 5.2(medium) | |
| 10 | GPT 5.4(low) | |
| 11 | GPT 5.2 Codex(xhigh) | |
| 12 | Claude Opus 4.5 | |
| 13 | Claude Sonnet 4.5 | |
| Tier 2 | 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 | |
| 14 | GLM 5.1 | |
| 14 | GLM 5 | |
| 15 | Kimi K2.5 | |
| 16 | Claude Sonnet 4.6(high) | |
| 17 | Qwen3.5-Plus | |
| 17 | KAT-Coder-Pro V2 | |
| Tier 3 | 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 | |
| 18 | GLM 5 Turbo | |
| 19 | GLM 4.7 | |
| 20 | Gemini 3.1 Pro(high) | |
| 21 | Mimo V2 Pro | |
| 22 | Mimo V2 Omni | |
| 23 | Minimax M2.7 | |
| 24 | Minimax M2.5 | |
| 25 | Step-3.5-Flash | |
| 26 | Qwen3-Coder-Next | |
| 27 | Gemini 3 Pro | |
| 28 | Gemini 3 Flash | |
| 29 | Doubao-Seed-2.0-Code | |
| 30 | Doubao-Seed-2.0-Pro | |
| 31 | Doubao-Seed-2.0-Lite | |
| 32 | Qwen3.5-Flash | |
| 33 | Qwen3.5 35B A3B GGUF Q4_K_XL | |
| 34 | Qwen3.5 9B GGUF Q4_K_XL | |
| 35 | Grok 4.20 0309 Reasoning | |
| 36 | DeepSeek V3.2 | |
| 37 | Minimax M2.1 | |
| 38 | GPT 5.1 Codex mini(medium) |
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码,在完成之后,还对所有文件进行了重新检查,可以说整个过程看起来非常严谨细致,当然由此导致的是花费的时间较长,我认为应该比 GLM 5 的时间要长(由于 VS Code 新版本突然不显示会话所花费的时间,所以这次没来得及手动计时,实在抱歉)。
GLM 5.1 的做题过程真的非常令人安心,但是很可惜,相对于国外的模型来说,奇迹没有发生,未踏入 Tier 1 的行列,但相比 GLM 5 来说,有了明显的提升,且没有编译错误,上代 GLM 5 是有一点编译错误的。
KAT-Coder-Pro V2 的做题过程相较于 GLM 5.1 来说是更常见的先阅读整个项目的代码,然后再编写代码,中途不会出现 GLM 5.1 那样回头看一下的行为,但在最后完成之后进行了一次全面的代码检查,且输出了一份完成报告。
最终,KAT-Coder-Pro V2 的完成度虽然不如 Tier 2 的其它模型,但是没有编译错误,所以不至于放在 Tier 3 模型。
这次 GLM 5.1 和 KAT-Coder-Pro V2 的表现我认为都是不错的,特别是 GLM 5.1,它展现出来的严谨程度让我有兴趣在之后继续日常使用以更深入地了解。
网友解答:--【壹】--:
有的,有的
--【贰】--:
纯编码gpt确实强,这都霸榜了,glm5.1这是gpt和Claude之下国产第一呀,符合印象
--【叁】--:
多少上下文
--【肆】--:
国产加油啊,不要再让天才们陨落了
--【伍】--:
会的,通常都是先阅读后编写,GLM 5.1 的这种频频回头的现象我没有见到过。
--【陆】--:
glm 5.1这么强
快手那个模型看上去也不错,之前都没听说过,话说快手有coding plan吗?
--【柒】--:
还是没能进到佬的T1榜单么,可惜。
--【捌】--:
关注佬友,每次都不错过最新发帖
--【玖】--:
国产应该快了
--【拾】--:
感谢佬这么详细。
自己昨天晚上开始用 glm5.1 体感比 glm5 耗时久、考虑全面了些,token消耗也跟着噌噌噌涨 早点看到佬的帖子就不会去买 minimax 了 m2.7 让它做分析都有点嫌弃……
--【拾壹】--:
感谢佬友分享
--【拾贰】--:
感谢佬,正想观察一下GLM5.1的表现
--【拾叁】--: SmallMain:
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码
确实是,我现在在测也是把整个项目每个都读了一遍,导致花的时间巨久
--【拾肆】--:
这样看gpt还是太超标了
--【拾伍】--: SmallMain:
GLM 5.1 非常严谨地先阅读了整个项目的代码,在编写代码的过程中也在不断地带着问题去搜索相关代码,在完成之后,还对所有文件进行了重新检查,可以说整个过程看起来非常严谨细致,当然由此导致的是花费的时间较长,我认为应该比 GLM 5 的时间要长(由于 VS Code 新版本突然不显示会话所花费的时间,所以这次没来得及手动计时,实在抱歉)。
GPT会严谨阅读整个项目的代码吗
--【拾陆】--:
到了5.1 还是没有越过sonnet 4.5吗
--【拾柒】--:
还是gpt强
--【拾捌】--:
很不错,毕竟前两档基本都是很贵的。
国内本来就缺卡,也不大可能出 xhigh 这类高消耗的模型,差距没有那么大。
--【拾玖】--:
佬的测试很有价值,目前而言的确GLM不太适合做游戏,尤其UNITY项目,GPT5.4毫无压力,甚至GODOT项目也迎刃有余

