记一次对 Kimi K2.6 的真实项目需求的横向评测(首个 T1 榜国产模型)
- 内容介绍
- 文章标签
- 相关推荐
项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
- 第一轮
- …
- 第十轮
模型来源
- Kimi K2.6: 官方 API
速度
| 排名 | 模型 | 时间(分钟) | 备注 |
|---|---|---|---|
| 1 | Grok 4.20 0309 Reasoning | 3 | |
| 2 | Minimax M2.1 | 5 | |
| 3 | Minimax M2.5 | 6 | |
| 4 | Step-3.5-Flash | 6 | |
| 5 | Mimo V2 Omni | 7 | |
| 6 | Doubao-Seed-2.0-Lite | 7 | |
| 7 | GPT-5.4(low) | 8 | |
| 8 | Doubao-Seed-2.0-Pro | 9 | |
| 9 | Doubao-Seed-2.0-Code | 9 | |
| 10 | Qwen3-Coder-Next | 9 | |
| 11 | Claude Sonnet 4.6(high) | 9 | |
| 12 | Qwen3.5-Plus | 9 | |
| 13 | GLM-5 Turbo | 10 | |
| 14 | Minimax M2.7 | 10 | Highspeed 版本 |
| 15 | Qwen3.5-Flash | 10 | |
| 16 | GPT-5.3-Codex(medium) | 10 | |
| 17 | Gemini 3 Pro | 11 | |
| 18 | Kimi K2.5 | 11 | |
| 19 | GLM 4.7 | 12 | |
| 20 | GPT-5.4(high) | 14 | |
| 21 | Mimo V2 Pro | 15 | |
| 22 | Claude Opus 4.5 | 15 | |
| 23 | Claude Sonnet 4.5 | 16 | |
| 24 | GPT-5.3-Codex(high) | 16 | 触发了一次上下文压缩 |
| 25 | GPT-5.3-Codex(xhigh) | 16 | |
| 26 | GPT-5.4(medium) | 17 | |
| 27 | GPT-5.4(xhigh) | 18 | |
| 28 | Claude-Opus-4.7(Max) | 20 | |
| 29 | GLM-5 | 20 | |
| 30 | DeppSeek V3.2 | 22 | |
| 31 | Gemini 3 Flash | 22 | |
| 32 | KAT-Coder-Pro V2 | 24 | |
| 33 | GPT 5.2(xhigh) | 25 | |
| 34 | Claude-Opus-4.6(Max) | 26 | |
| 35 | Gemini 3.1 Pro(high) | 29 | 受 429 请求频率限制影响 |
| 36 | Kimi K2.6 | 33 | |
| 37 | Qwen3.5 9B GGUF Q4_K_XL | 35 | MBP M4 Pro 48GB 本地部署 |
| 38 | Qwen3.5 35B A3B GGUF Q4_K_XL | 36 | MBP M4 Pro 48GB 本地部署 |
令牌数
- Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)
代码行数
- Kimi K2.6: +1422, -13
完成度
Kimi K2.6
审查结论:
详细
-
SkinAttrUI 属性总览不完整
InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空:SkinDataMgr.cs:80-109
GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs:SkinDataMgr.cs:246-270
只打开神针页时,其他类型使用中皮肤未请求列表,属性总览会漏算。
更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。 -
预览内容有类型错误
称号预览:SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding,应展示称号 + 当前/默认神针建筑预览。
气泡预览:SkinUI.cs:461-469 没有刷新 m_imgBorder2,缺当前头像框表现。 -
onlyHas 自动回退刷新顺序错误
SkinUI.cs:128-133 先刷新列表,再 AutoSelectValidSkin();当当前选中被过滤掉时,选中值变了但预览/按钮/高亮不会同步刷新。
代码质量
最终总结
| 排名 | 模型/层级 | 说明 |
|---|---|---|
| Tier 0 | 该等级的模型实现与线上基线高度一致。 | |
| 1 | GPT 5.4(xhigh) | |
| 2 | GPT 5.2(xhigh) | |
| 3 | GPT-5.3-Codex(xhigh) | |
| Tier 1 | 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 | |
| 4 | GPT 5.4(high) | |
| 5 | GPT 5.4(medium) | |
| 6 | Kimi K2.6 | |
| 7 | GPT-5.3-Codex(high) | |
| 8 | GPT-5.3-Codex(medium) | |
| 9 | Claude Opus 4.6(Max) | |
| 10 | GPT 5.2(medium) | |
| 11 | GPT 5.4(low) | |
| 12 | GPT 5.2 Codex(xhigh) | |
| 13 | Claude Opus 4.5 | |
| 14 | Claude Sonnet 4.5 | |
| Tier 2 | 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 | |
| 15 | GLM 5.1 | |
| 16 | GLM 5 | |
| 17 | Kimi K2.5 | |
| 18 | Claude Sonnet 4.6(high) | |
| 19 | Qwen3.5-Plus | |
| 20 | KAT-Coder-Pro V2 | |
| Tier 3 | 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 | |
| 21 | Claude Opus 4.7(Max) | |
| 22 | GLM 5 Turbo | |
| 23 | GLM 4.7 | |
| 24 | Gemini 3.1 Pro(high) | |
| 25 | Mimo V2 Pro | |
| 26 | Mimo V2 Omni | |
| 27 | Minimax M2.7 | |
| 28 | Minimax M2.5 | |
| 29 | Step-3.5-Flash | |
| 30 | Qwen3-Coder-Next | |
| 31 | Gemini 3 Pro | |
| 32 | Gemini 3 Flash | |
| 33 | Doubao-Seed-2.0-Code | |
| 34 | Doubao-Seed-2.0-Pro | |
| 35 | Doubao-Seed-2.0-Lite | |
| 36 | Qwen3.5-Flash | |
| 37 | Qwen3.5 35B A3B GGUF Q4_K_XL | |
| 38 | Qwen3.5 9B GGUF Q4_K_XL | |
| 39 | Grok 4.20 0309 Reasoning | |
| 40 | DeepSeek V3.2 | |
| 41 | Minimax M2.1 | |
| 42 | GPT 5.1 Codex mini(medium) |
体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。
- Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
- 总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
- 缓存命中效果不错,大约 90% 的输入都命中了缓存。
- Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
- 另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
- 而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
- GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
- 综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
- 不敢相信,以为这一刻会来的更晚,但它确实来了!
- 所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!
本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
网友解答:--【壹】--:
太好了,这样看似乎终于要崛起了吗 ,辛苦佬的测试
--【贰】--:
grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大
--【叁】--:
之前在群里探讨grok和doubao到底哪个强,这下好了,grok变成大号doubao了
--【肆】--:
Kimi K2.5刚出的时候记得表现也很好,后来一路降智,希望K2.6能持久点
--【伍】--:
题主当时似乎用的不是 Subscription plan 的
--【陆】--:
可以翻历史帖子,每个模型均使用 GPT-5.4 xhigh 得出审查结论,Opus 4.6 的错误点相比 GPT-5.4 xhigh 是比较多。
但其实 T1 以上的模型之间差距并不大了,主要在帖子中说的那三个常错点是否做对。
--【柒】--:
这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。
--【捌】--:
非常感谢佬友测评,最近公司一直在讨论这个
--【玖】--:
头一次看到真实场景的多模型测试评估 ,佬还是太权威了
--【拾】--:
kimi这模型的默认思考做的特别长,感觉确实增强了模型的能力但是正文输出时间要等好久,和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB
--【拾壹】--:
kimi2.6如此强势? 但是价格太贵了
--【拾贰】--:
这个榜单怎么opus4.6路边一条的吗(非反问)
--【拾叁】--:
佬的Kimi2.6最终排名的排位数是不是写错了?
--【拾肆】--:
窝趣 T1 吗?
那不得不尝试一下了
--【拾伍】--:
之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了
--【拾陆】--:
支持大佬,每期都看,这下可以考虑支持下kimi的订阅了
--【拾柒】--:
牛逼,Kimi赶紧干掉智谱这个,智谱一家独大久矣
--【拾捌】--:
grok日常搜索还不错,目前我主力搜索ai
--【拾玖】--:
grok只适合搜索和搞瑟瑟,真干活别用它
项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
- 第一轮
- …
- 第十轮
模型来源
- Kimi K2.6: 官方 API
速度
| 排名 | 模型 | 时间(分钟) | 备注 |
|---|---|---|---|
| 1 | Grok 4.20 0309 Reasoning | 3 | |
| 2 | Minimax M2.1 | 5 | |
| 3 | Minimax M2.5 | 6 | |
| 4 | Step-3.5-Flash | 6 | |
| 5 | Mimo V2 Omni | 7 | |
| 6 | Doubao-Seed-2.0-Lite | 7 | |
| 7 | GPT-5.4(low) | 8 | |
| 8 | Doubao-Seed-2.0-Pro | 9 | |
| 9 | Doubao-Seed-2.0-Code | 9 | |
| 10 | Qwen3-Coder-Next | 9 | |
| 11 | Claude Sonnet 4.6(high) | 9 | |
| 12 | Qwen3.5-Plus | 9 | |
| 13 | GLM-5 Turbo | 10 | |
| 14 | Minimax M2.7 | 10 | Highspeed 版本 |
| 15 | Qwen3.5-Flash | 10 | |
| 16 | GPT-5.3-Codex(medium) | 10 | |
| 17 | Gemini 3 Pro | 11 | |
| 18 | Kimi K2.5 | 11 | |
| 19 | GLM 4.7 | 12 | |
| 20 | GPT-5.4(high) | 14 | |
| 21 | Mimo V2 Pro | 15 | |
| 22 | Claude Opus 4.5 | 15 | |
| 23 | Claude Sonnet 4.5 | 16 | |
| 24 | GPT-5.3-Codex(high) | 16 | 触发了一次上下文压缩 |
| 25 | GPT-5.3-Codex(xhigh) | 16 | |
| 26 | GPT-5.4(medium) | 17 | |
| 27 | GPT-5.4(xhigh) | 18 | |
| 28 | Claude-Opus-4.7(Max) | 20 | |
| 29 | GLM-5 | 20 | |
| 30 | DeppSeek V3.2 | 22 | |
| 31 | Gemini 3 Flash | 22 | |
| 32 | KAT-Coder-Pro V2 | 24 | |
| 33 | GPT 5.2(xhigh) | 25 | |
| 34 | Claude-Opus-4.6(Max) | 26 | |
| 35 | Gemini 3.1 Pro(high) | 29 | 受 429 请求频率限制影响 |
| 36 | Kimi K2.6 | 33 | |
| 37 | Qwen3.5 9B GGUF Q4_K_XL | 35 | MBP M4 Pro 48GB 本地部署 |
| 38 | Qwen3.5 35B A3B GGUF Q4_K_XL | 36 | MBP M4 Pro 48GB 本地部署 |
令牌数
- Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)
代码行数
- Kimi K2.6: +1422, -13
完成度
Kimi K2.6
审查结论:
详细
-
SkinAttrUI 属性总览不完整
InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空:SkinDataMgr.cs:80-109
GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs:SkinDataMgr.cs:246-270
只打开神针页时,其他类型使用中皮肤未请求列表,属性总览会漏算。
更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。 -
预览内容有类型错误
称号预览:SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding,应展示称号 + 当前/默认神针建筑预览。
气泡预览:SkinUI.cs:461-469 没有刷新 m_imgBorder2,缺当前头像框表现。 -
onlyHas 自动回退刷新顺序错误
SkinUI.cs:128-133 先刷新列表,再 AutoSelectValidSkin();当当前选中被过滤掉时,选中值变了但预览/按钮/高亮不会同步刷新。
代码质量
最终总结
| 排名 | 模型/层级 | 说明 |
|---|---|---|
| Tier 0 | 该等级的模型实现与线上基线高度一致。 | |
| 1 | GPT 5.4(xhigh) | |
| 2 | GPT 5.2(xhigh) | |
| 3 | GPT-5.3-Codex(xhigh) | |
| Tier 1 | 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 | |
| 4 | GPT 5.4(high) | |
| 5 | GPT 5.4(medium) | |
| 6 | Kimi K2.6 | |
| 7 | GPT-5.3-Codex(high) | |
| 8 | GPT-5.3-Codex(medium) | |
| 9 | Claude Opus 4.6(Max) | |
| 10 | GPT 5.2(medium) | |
| 11 | GPT 5.4(low) | |
| 12 | GPT 5.2 Codex(xhigh) | |
| 13 | Claude Opus 4.5 | |
| 14 | Claude Sonnet 4.5 | |
| Tier 2 | 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 | |
| 15 | GLM 5.1 | |
| 16 | GLM 5 | |
| 17 | Kimi K2.5 | |
| 18 | Claude Sonnet 4.6(high) | |
| 19 | Qwen3.5-Plus | |
| 20 | KAT-Coder-Pro V2 | |
| Tier 3 | 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 | |
| 21 | Claude Opus 4.7(Max) | |
| 22 | GLM 5 Turbo | |
| 23 | GLM 4.7 | |
| 24 | Gemini 3.1 Pro(high) | |
| 25 | Mimo V2 Pro | |
| 26 | Mimo V2 Omni | |
| 27 | Minimax M2.7 | |
| 28 | Minimax M2.5 | |
| 29 | Step-3.5-Flash | |
| 30 | Qwen3-Coder-Next | |
| 31 | Gemini 3 Pro | |
| 32 | Gemini 3 Flash | |
| 33 | Doubao-Seed-2.0-Code | |
| 34 | Doubao-Seed-2.0-Pro | |
| 35 | Doubao-Seed-2.0-Lite | |
| 36 | Qwen3.5-Flash | |
| 37 | Qwen3.5 35B A3B GGUF Q4_K_XL | |
| 38 | Qwen3.5 9B GGUF Q4_K_XL | |
| 39 | Grok 4.20 0309 Reasoning | |
| 40 | DeepSeek V3.2 | |
| 41 | Minimax M2.1 | |
| 42 | GPT 5.1 Codex mini(medium) |
体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。
- Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
- 总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
- 缓存命中效果不错,大约 90% 的输入都命中了缓存。
- Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
- 另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
- 而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
- GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
- 综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
- 不敢相信,以为这一刻会来的更晚,但它确实来了!
- 所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!
本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
网友解答:--【壹】--:
太好了,这样看似乎终于要崛起了吗 ,辛苦佬的测试
--【贰】--:
grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大
--【叁】--:
之前在群里探讨grok和doubao到底哪个强,这下好了,grok变成大号doubao了
--【肆】--:
Kimi K2.5刚出的时候记得表现也很好,后来一路降智,希望K2.6能持久点
--【伍】--:
题主当时似乎用的不是 Subscription plan 的
--【陆】--:
可以翻历史帖子,每个模型均使用 GPT-5.4 xhigh 得出审查结论,Opus 4.6 的错误点相比 GPT-5.4 xhigh 是比较多。
但其实 T1 以上的模型之间差距并不大了,主要在帖子中说的那三个常错点是否做对。
--【柒】--:
这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。
--【捌】--:
非常感谢佬友测评,最近公司一直在讨论这个
--【玖】--:
头一次看到真实场景的多模型测试评估 ,佬还是太权威了
--【拾】--:
kimi这模型的默认思考做的特别长,感觉确实增强了模型的能力但是正文输出时间要等好久,和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB
--【拾壹】--:
kimi2.6如此强势? 但是价格太贵了
--【拾贰】--:
这个榜单怎么opus4.6路边一条的吗(非反问)
--【拾叁】--:
佬的Kimi2.6最终排名的排位数是不是写错了?
--【拾肆】--:
窝趣 T1 吗?
那不得不尝试一下了
--【拾伍】--:
之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了
--【拾陆】--:
支持大佬,每期都看,这下可以考虑支持下kimi的订阅了
--【拾柒】--:
牛逼,Kimi赶紧干掉智谱这个,智谱一家独大久矣
--【拾捌】--:
grok日常搜索还不错,目前我主力搜索ai
--【拾玖】--:
grok只适合搜索和搞瑟瑟,真干活别用它

