记一次对 Kimi K2.6 的真实项目需求的横向评测（首个 T1 榜国产模型）

2026-04-29 09:492阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

项目

这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致：

第一轮
…
第十轮

模型来源

Kimi K2.6: 官方 API

速度

排名	模型	时间（分钟）	备注
1	Grok 4.20 0309 Reasoning	3
2	Minimax M2.1	5
3	Minimax M2.5	6
4	Step-3.5-Flash	6
5	Mimo V2 Omni	7
6	Doubao-Seed-2.0-Lite	7
7	GPT-5.4(low)	8
8	Doubao-Seed-2.0-Pro	9
9	Doubao-Seed-2.0-Code	9
10	Qwen3-Coder-Next	9
11	Claude Sonnet 4.6(high)	9
12	Qwen3.5-Plus	9
13	GLM-5 Turbo	10
14	Minimax M2.7	10	Highspeed 版本
15	Qwen3.5-Flash	10
16	GPT-5.3-Codex(medium)	10
17	Gemini 3 Pro	11
18	Kimi K2.5	11
19	GLM 4.7	12
20	GPT-5.4(high)	14
21	Mimo V2 Pro	15
22	Claude Opus 4.5	15
23	Claude Sonnet 4.5	16
24	GPT-5.3-Codex(high)	16	触发了一次上下文压缩
25	GPT-5.3-Codex(xhigh)	16
26	GPT-5.4(medium)	17
27	GPT-5.4(xhigh)	18
28	Claude-Opus-4.7(Max)	20
29	GLM-5	20
30	DeppSeek V3.2	22
31	Gemini 3 Flash	22
32	KAT-Coder-Pro V2	24
33	GPT 5.2(xhigh)	25
34	Claude-Opus-4.6(Max)	26
35	Gemini 3.1 Pro(high)	29	受 429 请求频率限制影响
36	Kimi K2.6	33
37	Qwen3.5 9B GGUF Q4_K_XL	35	MBP M4 Pro 48GB 本地部署
38	Qwen3.5 35B A3B GGUF Q4_K_XL	36	MBP M4 Pro 48GB 本地部署

令牌数

Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

Kimi K2.6: +1422, -13

完成度

Kimi K2.6

审查结论:

详细

SkinAttrUI 属性总览不完整
InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空：SkinDataMgr.cs:80-109
GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs：SkinDataMgr.cs:246-270
只打开神针页时，其他类型使用中皮肤未请求列表，属性总览会漏算。
更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。
预览内容有类型错误
称号预览：SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding，应展示称号 + 当前/默认神针建筑预览。
气泡预览：SkinUI.cs:461-469 没有刷新 m_imgBorder2，缺当前头像框表现。
onlyHas 自动回退刷新顺序错误
SkinUI.cs:128-133 先刷新列表，再 AutoSelectValidSkin()；当当前选中被过滤掉时，选中值变了但预览/按钮/高亮不会同步刷新。

代码质量

最终总结

排名	模型/层级	说明
	Tier 0	该等级的模型实现与线上基线高度一致。
1	GPT 5.4(xhigh)
2	GPT 5.2(xhigh)
3	GPT-5.3-Codex(xhigh)
	Tier 1	该等级的模型的代码正确完整且可编译，仅少量边界问题或轻微不一致。
4	GPT 5.4(high)
5	GPT 5.4(medium)
6	Kimi K2.6
7	GPT-5.3-Codex(high)
8	GPT-5.3-Codex(medium)
9	Claude Opus 4.6(Max)
10	GPT 5.2(medium)
11	GPT 5.4(low)
12	GPT 5.2 Codex(xhigh)
13	Claude Opus 4.5
14	Claude Sonnet 4.5
	Tier 2	该等级的模型的代码至少可编译或仅极少量的语法错误，但是存在明显功能错误、遗漏或与需求/线上不一致。
15	GLM 5.1
16	GLM 5
17	Kimi K2.5
18	Claude Sonnet 4.6(high)
19	Qwen3.5-Plus
20	KAT-Coder-Pro V2
	Tier 3	该等级的模型的问题很多且无法编译，或者存在不少幻觉。
21	Claude Opus 4.7(Max)
22	GLM 5 Turbo
23	GLM 4.7
24	Gemini 3.1 Pro(high)
25	Mimo V2 Pro
26	Mimo V2 Omni
27	Minimax M2.7
28	Minimax M2.5
29	Step-3.5-Flash
30	Qwen3-Coder-Next
31	Gemini 3 Pro
32	Gemini 3 Flash
33	Doubao-Seed-2.0-Code
34	Doubao-Seed-2.0-Pro
35	Doubao-Seed-2.0-Lite
36	Qwen3.5-Flash
37	Qwen3.5 35B A3B GGUF Q4_K_XL
38	Qwen3.5 9B GGUF Q4_K_XL
39	Grok 4.20 0309 Reasoning
40	DeepSeek V3.2
41	Minimax M2.1
42	GPT 5.1 Codex mini(medium)

体外话：很多人想知道 Qwen 3.6 全系列的评测，其实全系列都已测试过，但均未有很好的成绩，几乎都有一点编译错误，所以就不额外发帖了。如果你玩端侧的话，推荐 Qwen3.6 35B A3B 这个模型，质量确实非常不错。

Kimi K2.6 花费的时间是 33 分钟，这个速度可以说很慢了，对比 GPT-5.4(medium) 的话慢了一倍，但对比 Opus 4.6(Max) 只慢了 20% 左右。
总花费接近一千万 Token，使用 API 的成本为 8.63 人民币，这个花费不算非常高也谈不上便宜，但比 GLM 5.1 的价格要便宜一点。
缓存命中效果不错，大约 90% 的输入都命中了缓存。
Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写，别看这两个改动都只需要一句代码，但是 GPT 与 Claude 的差距几乎总在这里，因为需求案是没有主动提到这两点的，属于是项目框架和已有功能的改进，如果模型不深入阅读代码库，则不会知道要写这两行代码。
另一个模型常犯的协议类型映射问题，Kimi K2.6 也做对了。
而以上两点 Opus 4.6 均未正确实现，当然 Opus 4.6 还有其它一些小问题，Kimi K2.6 也犯了几个小问题，但是以上两点决定了这个需求是否基本正确，是更重要的。
GPT 5.3 Codex High 与 Medium 这两个思考程度的模型，有一个未写对协议类型映射，有一个犯了一两个小问题，其实将 Kimi K2.6 排在它们前面或者后面都说得过去，我认为水平接近。
综合以上几点，并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列，所以虽然水平相当，但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面！
不敢相信，以为这一刻会来的更晚，但它确实来了！
所有模型均采用一次过的方式完成测评，所以可能存在偶然性，大家可以积极试一试 Kimi K2.6，看看它的表现是否能达到评测的水平，期待你的反馈！

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

网友解答：

--【壹】--：

太好了，这样看似乎终于要崛起了吗，辛苦佬的测试

--【贰】--：

grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大

--【叁】--：

之前在群里探讨grok和doubao到底哪个强，这下好了，grok变成大号doubao了

--【肆】--：

Kimi K2.5刚出的时候记得表现也很好，后来一路降智，希望K2.6能持久点

--【伍】--：

题主当时似乎用的不是 Subscription plan 的

--【陆】--：

可以翻历史帖子，每个模型均使用 GPT-5.4 xhigh 得出审查结论，Opus 4.6 的错误点相比 GPT-5.4 xhigh 是比较多。
但其实 T1 以上的模型之间差距并不大了，主要在帖子中说的那三个常错点是否做对。

--【柒】--：

这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。

--【捌】--：

非常感谢佬友测评，最近公司一直在讨论这个

--【玖】--：

头一次看到真实场景的多模型测试评估，佬还是太权威了

--【拾】--：

kimi这模型的默认思考做的特别长，感觉确实增强了模型的能力但是正文输出时间要等好久，和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB

--【拾壹】--：

kimi2.6如此强势？但是价格太贵了

--【拾贰】--：

这个榜单怎么opus4.6路边一条的吗（非反问）

--【拾叁】--：

佬的Kimi2.6最终排名的排位数是不是写错了？

--【拾肆】--：

窝趣 T1 吗？
那不得不尝试一下了

--【拾伍】--：

之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了

--【拾陆】--：

支持大佬，每期都看，这下可以考虑支持下kimi的订阅了

--【拾柒】--：

牛逼，Kimi赶紧干掉智谱这个，智谱一家独大久矣

--【拾捌】--：

grok日常搜索还不错，目前我主力搜索ai

--【拾玖】--：

grok只适合搜索和搞瑟瑟，真干活别用它

标签：人工智能

问题描述：

项目

这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致：

第一轮
…
第十轮

模型来源

Kimi K2.6: 官方 API

速度

排名	模型	时间（分钟）	备注
1	Grok 4.20 0309 Reasoning	3
2	Minimax M2.1	5
3	Minimax M2.5	6
4	Step-3.5-Flash	6
5	Mimo V2 Omni	7
6	Doubao-Seed-2.0-Lite	7
7	GPT-5.4(low)	8
8	Doubao-Seed-2.0-Pro	9
9	Doubao-Seed-2.0-Code	9
10	Qwen3-Coder-Next	9
11	Claude Sonnet 4.6(high)	9
12	Qwen3.5-Plus	9
13	GLM-5 Turbo	10
14	Minimax M2.7	10	Highspeed 版本
15	Qwen3.5-Flash	10
16	GPT-5.3-Codex(medium)	10
17	Gemini 3 Pro	11
18	Kimi K2.5	11
19	GLM 4.7	12
20	GPT-5.4(high)	14
21	Mimo V2 Pro	15
22	Claude Opus 4.5	15
23	Claude Sonnet 4.5	16
24	GPT-5.3-Codex(high)	16	触发了一次上下文压缩
25	GPT-5.3-Codex(xhigh)	16
26	GPT-5.4(medium)	17
27	GPT-5.4(xhigh)	18
28	Claude-Opus-4.7(Max)	20
29	GLM-5	20
30	DeppSeek V3.2	22
31	Gemini 3 Flash	22
32	KAT-Coder-Pro V2	24
33	GPT 5.2(xhigh)	25
34	Claude-Opus-4.6(Max)	26
35	Gemini 3.1 Pro(high)	29	受 429 请求频率限制影响
36	Kimi K2.6	33
37	Qwen3.5 9B GGUF Q4_K_XL	35	MBP M4 Pro 48GB 本地部署
38	Qwen3.5 35B A3B GGUF Q4_K_XL	36	MBP M4 Pro 48GB 本地部署

令牌数

Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

Kimi K2.6: +1422, -13

完成度

Kimi K2.6

审查结论:

详细

SkinAttrUI 属性总览不完整
InitFromHomeInfo 中使用中皮肤的 Attrs 初始化为空：SkinDataMgr.cs:80-109
GetUsingSkinTotalAttrs() 只聚合本地已加载 owned skin 的 Attrs：SkinDataMgr.cs:246-270
只打开神针页时，其他类型使用中皮肤未请求列表，属性总览会漏算。
更稳妥应按“所有正在使用 skinId”从配置 AttributionAdd 聚合。
预览内容有类型错误
称号预览：SkinUI.cs:471-479 把“称号皮肤资源”也塞给 m_imgBuilding，应展示称号 + 当前/默认神针建筑预览。
气泡预览：SkinUI.cs:461-469 没有刷新 m_imgBorder2，缺当前头像框表现。
onlyHas 自动回退刷新顺序错误
SkinUI.cs:128-133 先刷新列表，再 AutoSelectValidSkin()；当当前选中被过滤掉时，选中值变了但预览/按钮/高亮不会同步刷新。

代码质量

最终总结

排名	模型/层级	说明
	Tier 0	该等级的模型实现与线上基线高度一致。
1	GPT 5.4(xhigh)
2	GPT 5.2(xhigh)
3	GPT-5.3-Codex(xhigh)
	Tier 1	该等级的模型的代码正确完整且可编译，仅少量边界问题或轻微不一致。
4	GPT 5.4(high)
5	GPT 5.4(medium)
6	Kimi K2.6
7	GPT-5.3-Codex(high)
8	GPT-5.3-Codex(medium)
9	Claude Opus 4.6(Max)
10	GPT 5.2(medium)
11	GPT 5.4(low)
12	GPT 5.2 Codex(xhigh)
13	Claude Opus 4.5
14	Claude Sonnet 4.5
	Tier 2	该等级的模型的代码至少可编译或仅极少量的语法错误，但是存在明显功能错误、遗漏或与需求/线上不一致。
15	GLM 5.1
16	GLM 5
17	Kimi K2.5
18	Claude Sonnet 4.6(high)
19	Qwen3.5-Plus
20	KAT-Coder-Pro V2
	Tier 3	该等级的模型的问题很多且无法编译，或者存在不少幻觉。
21	Claude Opus 4.7(Max)
22	GLM 5 Turbo
23	GLM 4.7
24	Gemini 3.1 Pro(high)
25	Mimo V2 Pro
26	Mimo V2 Omni
27	Minimax M2.7
28	Minimax M2.5
29	Step-3.5-Flash
30	Qwen3-Coder-Next
31	Gemini 3 Pro
32	Gemini 3 Flash
33	Doubao-Seed-2.0-Code
34	Doubao-Seed-2.0-Pro
35	Doubao-Seed-2.0-Lite
36	Qwen3.5-Flash
37	Qwen3.5 35B A3B GGUF Q4_K_XL
38	Qwen3.5 9B GGUF Q4_K_XL
39	Grok 4.20 0309 Reasoning
40	DeepSeek V3.2
41	Minimax M2.1
42	GPT 5.1 Codex mini(medium)

体外话：很多人想知道 Qwen 3.6 全系列的评测，其实全系列都已测试过，但均未有很好的成绩，几乎都有一点编译错误，所以就不额外发帖了。如果你玩端侧的话，推荐 Qwen3.6 35B A3B 这个模型，质量确实非常不错。

Kimi K2.6 花费的时间是 33 分钟，这个速度可以说很慢了，对比 GPT-5.4(medium) 的话慢了一倍，但对比 Opus 4.6(Max) 只慢了 20% 左右。
总花费接近一千万 Token，使用 API 的成本为 8.63 人民币，这个花费不算非常高也谈不上便宜，但比 GLM 5.1 的价格要便宜一点。
缓存命中效果不错，大约 90% 的输入都命中了缓存。
Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写，别看这两个改动都只需要一句代码，但是 GPT 与 Claude 的差距几乎总在这里，因为需求案是没有主动提到这两点的，属于是项目框架和已有功能的改进，如果模型不深入阅读代码库，则不会知道要写这两行代码。
另一个模型常犯的协议类型映射问题，Kimi K2.6 也做对了。
而以上两点 Opus 4.6 均未正确实现，当然 Opus 4.6 还有其它一些小问题，Kimi K2.6 也犯了几个小问题，但是以上两点决定了这个需求是否基本正确，是更重要的。
GPT 5.3 Codex High 与 Medium 这两个思考程度的模型，有一个未写对协议类型映射，有一个犯了一两个小问题，其实将 Kimi K2.6 排在它们前面或者后面都说得过去，我认为水平接近。
综合以上几点，并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列，所以虽然水平相当，但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面！
不敢相信，以为这一刻会来的更晚，但它确实来了！
所有模型均采用一次过的方式完成测评，所以可能存在偶然性，大家可以积极试一试 Kimi K2.6，看看它的表现是否能达到评测的水平，期待你的反馈！

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

网友解答：

--【壹】--：

太好了，这样看似乎终于要崛起了吗，辛苦佬的测试

--【贰】--：

grok 4.2这么拉吗,都跟glm5坐一桌了, 差距好大

--【叁】--：

之前在群里探讨grok和doubao到底哪个强，这下好了，grok变成大号doubao了

--【肆】--：

Kimi K2.5刚出的时候记得表现也很好，后来一路降智，希望K2.6能持久点

--【伍】--：

题主当时似乎用的不是 Subscription plan 的

--【陆】--：

--【柒】--：

这次的成绩不敢相信到是我用 GPT-5.4 xhigh 对代码从头进行审查了两次得出的问题报告。

--【捌】--：

非常感谢佬友测评，最近公司一直在讨论这个

--【玖】--：

头一次看到真实场景的多模型测试评估，佬还是太权威了

--【拾】--：

kimi这模型的默认思考做的特别长，感觉确实增强了模型的能力但是正文输出时间要等好久，和之前的dsr1一样了
配图
image788×731 61.5 KB
image871×489 39.5 KB

--【拾壹】--：

kimi2.6如此强势？但是价格太贵了

--【拾贰】--：

这个榜单怎么opus4.6路边一条的吗（非反问）

--【拾叁】--：

佬的Kimi2.6最终排名的排位数是不是写错了？

--【拾肆】--：

窝趣 T1 吗？
那不得不尝试一下了

--【拾伍】--：

之前没咋用过grok, 这也太差劲了, 好赖也是也是新版模型了, 这都断代了

--【拾陆】--：

支持大佬，每期都看，这下可以考虑支持下kimi的订阅了

--【拾柒】--：

牛逼，Kimi赶紧干掉智谱这个，智谱一家独大久矣

--【拾捌】--：

grok日常搜索还不错，目前我主力搜索ai

--【拾玖】--：

grok只适合搜索和搞瑟瑟，真干活别用它

标签：人工智能

项目

模型来源

速度

令牌数

代码行数

完成度

Kimi K2.6

代码质量

最终总结

相关推荐

项目

模型来源

速度

令牌数

代码行数

完成度

Kimi K2.6

代码质量

最终总结

相关推荐