记一次对 Kimi K2.6 的真实项目需求的横向评测(首个 T1 榜国产模型)

2026-04-29 09:492阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

项目

这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致:

  • 第一轮
  • 第十轮

模型来源

  • Kimi K2.6: 官方 API

速度

排名 模型 时间(分钟) 备注
1 Grok 4.20 0309 Reasoning 3
2 Minimax M2.1 5
3 Minimax M2.5 6
4 Step-3.5-Flash 6
5 Mimo V2 Omni 7
6 Doubao-Seed-2.0-Lite 7
7 GPT-5.4(low) 8
8 Doubao-Seed-2.0-Pro 9
9 Doubao-Seed-2.0-Code 9
10 Qwen3-Coder-Next 9
11 Claude Sonnet 4.6(high) 9
12 Qwen3.5-Plus 9
13 GLM-5 Turbo 10
14 Minimax M2.7 10 Highspeed 版本
15 Qwen3.5-Flash 10
16 GPT-5.3-Codex(medium) 10
17 Gemini 3 Pro 11
18 Kimi K2.5 11
19 GLM 4.7 12
20 GPT-5.4(high) 14
21 Mimo V2 Pro 15
22 Claude Opus 4.5 15
23 Claude Sonnet 4.5 16
24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩
25 GPT-5.3-Codex(xhigh) 16
26 GPT-5.4(medium) 17
27 GPT-5.4(xhigh) 18
28 Claude-Opus-4.7(Max) 20
29 GLM-5 20
30 DeppSeek V3.2 22
31 Gemini 3 Flash 22
32 KAT-Coder-Pro V2 24
33 GPT 5.2(xhigh) 25
34 Claude-Opus-4.6(Max) 26
35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响
36 Kimi K2.6 33
37 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署
38 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署

令牌数

  • Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

  • Kimi K2.6: +1422, -13

完成度

Kimi K2.6

审查结论:

详细
  1. SkinAttrUI 属性总览不完整
    InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空:SkinDataMgr.cs:80-109
    GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs:SkinDataMgr.cs:246-270
    只打开神针页时,其他类型使用中皮肤未请求列表,属性总览会漏算。
    更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。

  2. 预览内容有类型错误
    称号预览:SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding,应展示称号 + 当前/默认神针建筑预览。
    气泡预览:SkinUI.cs:461-469 没有刷新 m_imgBorder2,缺当前头像框表现。

  3. onlyHas 自动回退刷新顺序错误
    SkinUI.cs:128-133 先刷新列表,再 AutoSelectValidSkin();当当前选中被过滤掉时,选中值变了但预览/按钮/高亮不会同步刷新。

代码质量

最终总结

排名 模型/层级 说明
Tier 0 该等级的模型实现与线上基线高度一致。
1 GPT 5.4(xhigh)
2 GPT 5.2(xhigh)
3 GPT-5.3-Codex(xhigh)
Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。
4 GPT 5.4(high)
5 GPT 5.4(medium)
6 Kimi K2.6
7 GPT-5.3-Codex(high)
8 GPT-5.3-Codex(medium)
9 Claude Opus 4.6(Max)
10 GPT 5.2(medium)
11 GPT 5.4(low)
12 GPT 5.2 Codex(xhigh)
13 Claude Opus 4.5
14 Claude Sonnet 4.5
Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。
15 GLM 5.1
16 GLM 5
17 Kimi K2.5
18 Claude Sonnet 4.6(high)
19 Qwen3.5-Plus
20 KAT-Coder-Pro V2
Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。
21 Claude Opus 4.7(Max)
22 GLM 5 Turbo
23 GLM 4.7
24 Gemini 3.1 Pro(high)
25 Mimo V2 Pro
26 Mimo V2 Omni
27 Minimax M2.7
28 Minimax M2.5
29 Step-3.5-Flash
30 Qwen3-Coder-Next
31 Gemini 3 Pro
32 Gemini 3 Flash
33 Doubao-Seed-2.0-Code
34 Doubao-Seed-2.0-Pro
35 Doubao-Seed-2.0-Lite
36 Qwen3.5-Flash
37 Qwen3.5 35B A3B GGUF Q4_K_XL
38 Qwen3.5 9B GGUF Q4_K_XL
39 Grok 4.20 0309 Reasoning
40 DeepSeek V3.2
41 Minimax M2.1
42 GPT 5.1 Codex mini(medium)

体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。

  • Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
  • 总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
  • 缓存命中效果不错,大约 90% 的输入都命中了缓存。
  • Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
  • 另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
  • 而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
  • GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
  • 综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
  • 不敢相信,以为这一刻会来的更晚,但它确实来了!
  • 所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

网友解答:
--【壹】--:

太好了,这样看似乎终于要崛起了吗 ,辛苦佬的测试


--【贰】--:

grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大


--【叁】--:

之前在群里探讨grok和doubao到底哪个强,这下好了,grok变成大号doubao了


--【肆】--:

Kimi K2.5刚出的时候记得表现也很好,后来一路降智,希望K2.6能持久点


--【伍】--:

题主当时似乎用的不是 Subscription plan 的


--【陆】--:

可以翻历史帖子,每个模型均使用 GPT-5.4 xhigh 得出审查结论,Opus 4.6 的错误点相比 GPT-5.4 xhigh 是比较多。
但其实 T1 以上的模型之间差距并不大了,主要在帖子中说的那三个常错点是否做对。


--【柒】--:

这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。


--【捌】--:

非常感谢佬友测评,最近公司一直在讨论这个


--【玖】--:

头一次看到真实场景的多模型测试评估 ,佬还是太权威了


--【拾】--:

kimi这模型的默认思考做的特别长,感觉确实增强了模型的能力但是正文输出时间要等好久,和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB


--【拾壹】--:

kimi2.6如此强势? 但是价格太贵了


--【拾贰】--:

这个榜单怎么opus4.6路边一条的吗(非反问)


--【拾叁】--:

佬的Kimi2.6最终排名的排位数是不是写错了?


--【拾肆】--:

窝趣 T1 吗?
那不得不尝试一下了


--【拾伍】--:

之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了


--【拾陆】--:

支持大佬,每期都看,这下可以考虑支持下kimi的订阅了


--【拾柒】--:

牛逼,Kimi赶紧干掉智谱这个,智谱一家独大久矣


--【拾捌】--:

grok日常搜索还不错,目前我主力搜索ai


--【拾玖】--:

grok只适合搜索和搞瑟瑟,真干活别用它

标签:人工智能
问题描述:

项目

这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致:

  • 第一轮
  • 第十轮

模型来源

  • Kimi K2.6: 官方 API

速度

排名 模型 时间(分钟) 备注
1 Grok 4.20 0309 Reasoning 3
2 Minimax M2.1 5
3 Minimax M2.5 6
4 Step-3.5-Flash 6
5 Mimo V2 Omni 7
6 Doubao-Seed-2.0-Lite 7
7 GPT-5.4(low) 8
8 Doubao-Seed-2.0-Pro 9
9 Doubao-Seed-2.0-Code 9
10 Qwen3-Coder-Next 9
11 Claude Sonnet 4.6(high) 9
12 Qwen3.5-Plus 9
13 GLM-5 Turbo 10
14 Minimax M2.7 10 Highspeed 版本
15 Qwen3.5-Flash 10
16 GPT-5.3-Codex(medium) 10
17 Gemini 3 Pro 11
18 Kimi K2.5 11
19 GLM 4.7 12
20 GPT-5.4(high) 14
21 Mimo V2 Pro 15
22 Claude Opus 4.5 15
23 Claude Sonnet 4.5 16
24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩
25 GPT-5.3-Codex(xhigh) 16
26 GPT-5.4(medium) 17
27 GPT-5.4(xhigh) 18
28 Claude-Opus-4.7(Max) 20
29 GLM-5 20
30 DeppSeek V3.2 22
31 Gemini 3 Flash 22
32 KAT-Coder-Pro V2 24
33 GPT 5.2(xhigh) 25
34 Claude-Opus-4.6(Max) 26
35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响
36 Kimi K2.6 33
37 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署
38 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署

令牌数

  • Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

  • Kimi K2.6: +1422, -13

完成度

Kimi K2.6

审查结论:

详细
  1. SkinAttrUI 属性总览不完整
    InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空:SkinDataMgr.cs:80-109
    GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs:SkinDataMgr.cs:246-270
    只打开神针页时,其他类型使用中皮肤未请求列表,属性总览会漏算。
    更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。

  2. 预览内容有类型错误
    称号预览:SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding,应展示称号 + 当前/默认神针建筑预览。
    气泡预览:SkinUI.cs:461-469 没有刷新 m_imgBorder2,缺当前头像框表现。

  3. onlyHas 自动回退刷新顺序错误
    SkinUI.cs:128-133 先刷新列表,再 AutoSelectValidSkin();当当前选中被过滤掉时,选中值变了但预览/按钮/高亮不会同步刷新。

代码质量

最终总结

排名 模型/层级 说明
Tier 0 该等级的模型实现与线上基线高度一致。
1 GPT 5.4(xhigh)
2 GPT 5.2(xhigh)
3 GPT-5.3-Codex(xhigh)
Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。
4 GPT 5.4(high)
5 GPT 5.4(medium)
6 Kimi K2.6
7 GPT-5.3-Codex(high)
8 GPT-5.3-Codex(medium)
9 Claude Opus 4.6(Max)
10 GPT 5.2(medium)
11 GPT 5.4(low)
12 GPT 5.2 Codex(xhigh)
13 Claude Opus 4.5
14 Claude Sonnet 4.5
Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。
15 GLM 5.1
16 GLM 5
17 Kimi K2.5
18 Claude Sonnet 4.6(high)
19 Qwen3.5-Plus
20 KAT-Coder-Pro V2
Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。
21 Claude Opus 4.7(Max)
22 GLM 5 Turbo
23 GLM 4.7
24 Gemini 3.1 Pro(high)
25 Mimo V2 Pro
26 Mimo V2 Omni
27 Minimax M2.7
28 Minimax M2.5
29 Step-3.5-Flash
30 Qwen3-Coder-Next
31 Gemini 3 Pro
32 Gemini 3 Flash
33 Doubao-Seed-2.0-Code
34 Doubao-Seed-2.0-Pro
35 Doubao-Seed-2.0-Lite
36 Qwen3.5-Flash
37 Qwen3.5 35B A3B GGUF Q4_K_XL
38 Qwen3.5 9B GGUF Q4_K_XL
39 Grok 4.20 0309 Reasoning
40 DeepSeek V3.2
41 Minimax M2.1
42 GPT 5.1 Codex mini(medium)

体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。

  • Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
  • 总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
  • 缓存命中效果不错,大约 90% 的输入都命中了缓存。
  • Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
  • 另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
  • 而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
  • GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
  • 综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
  • 不敢相信,以为这一刻会来的更晚,但它确实来了!
  • 所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

网友解答:
--【壹】--:

太好了,这样看似乎终于要崛起了吗 ,辛苦佬的测试


--【贰】--:

grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大


--【叁】--:

之前在群里探讨grok和doubao到底哪个强,这下好了,grok变成大号doubao了


--【肆】--:

Kimi K2.5刚出的时候记得表现也很好,后来一路降智,希望K2.6能持久点


--【伍】--:

题主当时似乎用的不是 Subscription plan 的


--【陆】--:

可以翻历史帖子,每个模型均使用 GPT-5.4 xhigh 得出审查结论,Opus 4.6 的错误点相比 GPT-5.4 xhigh 是比较多。
但其实 T1 以上的模型之间差距并不大了,主要在帖子中说的那三个常错点是否做对。


--【柒】--:

这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。


--【捌】--:

非常感谢佬友测评,最近公司一直在讨论这个


--【玖】--:

头一次看到真实场景的多模型测试评估 ,佬还是太权威了


--【拾】--:

kimi这模型的默认思考做的特别长,感觉确实增强了模型的能力但是正文输出时间要等好久,和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB


--【拾壹】--:

kimi2.6如此强势? 但是价格太贵了


--【拾贰】--:

这个榜单怎么opus4.6路边一条的吗(非反问)


--【拾叁】--:

佬的Kimi2.6最终排名的排位数是不是写错了?


--【拾肆】--:

窝趣 T1 吗?
那不得不尝试一下了


--【拾伍】--:

之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了


--【拾陆】--:

支持大佬,每期都看,这下可以考虑支持下kimi的订阅了


--【拾柒】--:

牛逼,Kimi赶紧干掉智谱这个,智谱一家独大久矣


--【拾捌】--:

grok日常搜索还不错,目前我主力搜索ai


--【拾玖】--:

grok只适合搜索和搞瑟瑟,真干活别用它

标签:人工智能