在实际需求从0到1用kimi k2.5有感
- 内容介绍
- 文章标签
- 相关推荐
前言
我一直在观望国产模型,基本就是尝鲜用过几次的水平,主要之前有稳定的kiro claude现在还可以白嫖gpt,最近openai的邪恶人格占领高地,天天封号,所以买了个fireworks的编程套餐试试水,我同时也有glm的编程套餐。fireworks这个应该没有过度量化吧?如果是超级量化导致的降智以下当我没说。
每次出新模型我都简单测试一下,印象里kimi还挺好用的,天气卡很不错,风扇svg也说得过去。
两极分化已经不能描述现在的国产模型了,kimik2.5在论坛里有的人说已经超越sonnet4.6,有的说还不如gpt4,glm5也差不多,颇有安卓新机发布后和苹果对比的网友评论的感觉。
我的体验
买fireworks的套餐就是为了快,200tps带来了窜稀的快感,我打算进行一个简单的mes系统demo开发,集成手机端报工与中控发单流程监控端,数据库因为是demo用sqlite,前端为了方便用的vue3。因为主要是为了测试模型性能就没用已有的项目测试。
拆分需求部分就遇到了困难,这是个实际在与工厂对接的需求,我把工厂方提出的需求发给kimi结果架构md里出现了很多理解偏差,还自己加了很多不存在的细节,比如报工流程工厂方还没进一步交接,kimi在没和我确认的前提下擅自决定采用扫码报工,即使我在发送前强调未确认的细节与我讨论后决定kimi还是毅然决然的自己决定了一切只是象征性的问了下前端后端用什么框架。
解决完架构基本满意后执行阶段就是快,推荐一下fireworks这个套餐比窜稀还快。运行出现问题,几个小的变量名错误,修复后初见端倪了,前端网页基本三步一个坑,列表显示错位,一点点组件显示不全,很多页面压根就是空文件一个占位的。我已红温,重新强调修复后还是修复一个bug引入新的bug的循环。并且在vibe过程中发现mcp调用压根没有啊,我在claude.md里有简单的约束使用auggie和exa之类的,从头到尾他一个mcp也没调用,换成glm或者opus4.6就完全没问题,在初始阶段就会调用auggie索引确认相关代码然后exa搜索文档之类的。
而且在对话中kimi很喜欢不了解上下文直接开写,开新对话后如果不强调用auggie理解一下现有代码他会直接开个新文件把旧的已经实现的需求再写一遍,到这我感觉已经是我提示词约束太差导致的了。
vibe了3个小时才终于把能看见的bug修完初步能跑。
结局
还没测试glm但是体感这kimik2.5也太差了,难道是我提示词太精简的原因?因为opus太贵了我把提示词精简的很极限,但是opus用起来没问题,sonnet4.6也没问题。
这模型让我回到了青春,和gemini2.0p青涩的对话写项目,尝试浑身解数让她理解我(误。
总而言之我体感不如sonnet4.6甚至有没有sonnet4.5强都是问题,明天我优化一下提示词再试试,如果让我改观我再发个帖子夸一次。
网友解答:--【壹】--:
firework的有降智 同一个提示词写一个番茄钟单文件html,硅基流动的k2.5写出来没问题
firework的不能正常运行
刚又试了一遍 今天的能正常工作了,但是效果还是差一些比硅基流动的
还是不少量化感觉
--【贰】--:
国产现在貌似glm5.1最强 然后小米新开的mimov2pro也挺厉害 其他的模型感觉区别不是很大 我有一直在用minimax2.7感觉比较一般有时候还会降智
--【叁】--:
佬,试试glm
--【肆】--:
我切成ollama的kimi又跑了一轮感觉几乎完全一致啊,除了慢了点问题还是我说的那些
--【伍】--:
hhh花点钱上个team车吧,一个号的用量轻度开发还是够的
--【陆】--:
单纯国产垃圾
--【柒】--:
确实,glm和kimi跑同一个任务glm很少出问题,修bug不会修一个多一个,但是和sonnet4.5比感觉还是缺少点理解能力
--【捌】--:
确实量化过的,快但不行
--【玖】--:
Kimi一般我用来润色公文,没跑过代码
--【拾】--:
帖子下面推荐的其他测评感觉和我用的都不是一个模型了,这么多说好用的感觉说不定真是我提示词不行,明天我再试试不行再喷
--【拾壹】--:
太快的东西先怀疑是不是量化的,k2.5不是小模型
不过即便没量化肯定也是比不上claude的,kimi用来搞搞文字工作啥的不错,代码能力感觉是比不上glm
--【拾贰】--:
kimi和minimax我体验下来指令遵循能力不太行,可能是我gpt用多了胃口养刁了,去年四五月,我觉得代码模型能用就行,不管准不准好歹比古法编程快且方便,但是自从后面用了claude和codex,我发现真的是模型越好,vibe体验越好,不用去纠结细枝末节的实现,只用沟通需求
--【拾叁】--: mi tu:
kimik2.5在论坛里有的人说已经超越sonnet4.6
这绝对是瞎说,谁给他的勇气
另外,我建议你用下 ccw,效果会好很多
--【拾肆】--:
快是真快,毛过来玩claw了,实际用确实发现遵循有问题
--【拾伍】--:
不知道Deepseek v4咋样,不要拉一坨啊
--【拾陆】--:
简单测试过,感觉在我这个场景,比kimi好用,和sonnet4.5差不多了,但是总体上有没有sonnet4.5的水平不好说
更正一下,感觉比sonnet4.5在前端上更好一点甚至,很多地方都更像opus4.5,但是有种定向蒸馏的感觉,在通识和平时问答感觉又不如kimi了
--【拾柒】--:
国产模型直接从 0 → 1 会有抽奖的感觉
然后 firework 没意外应该是 FP4 量化,不然不会这么快
不过在代码搜寻上,对我来说挺好用的
--【拾捌】--:
刚直接订阅plus了,测了大半天结果感觉在项目里根本用不了
--【拾玖】--:
站里有佬测试过unity项目,明显glm要比kimi好一截。UEFIBlog也测了UEFI场景,glm也是要好得多。我自己阿里coding plan用下来体感也是这样
前言
我一直在观望国产模型,基本就是尝鲜用过几次的水平,主要之前有稳定的kiro claude现在还可以白嫖gpt,最近openai的邪恶人格占领高地,天天封号,所以买了个fireworks的编程套餐试试水,我同时也有glm的编程套餐。fireworks这个应该没有过度量化吧?如果是超级量化导致的降智以下当我没说。
每次出新模型我都简单测试一下,印象里kimi还挺好用的,天气卡很不错,风扇svg也说得过去。
两极分化已经不能描述现在的国产模型了,kimik2.5在论坛里有的人说已经超越sonnet4.6,有的说还不如gpt4,glm5也差不多,颇有安卓新机发布后和苹果对比的网友评论的感觉。
我的体验
买fireworks的套餐就是为了快,200tps带来了窜稀的快感,我打算进行一个简单的mes系统demo开发,集成手机端报工与中控发单流程监控端,数据库因为是demo用sqlite,前端为了方便用的vue3。因为主要是为了测试模型性能就没用已有的项目测试。
拆分需求部分就遇到了困难,这是个实际在与工厂对接的需求,我把工厂方提出的需求发给kimi结果架构md里出现了很多理解偏差,还自己加了很多不存在的细节,比如报工流程工厂方还没进一步交接,kimi在没和我确认的前提下擅自决定采用扫码报工,即使我在发送前强调未确认的细节与我讨论后决定kimi还是毅然决然的自己决定了一切只是象征性的问了下前端后端用什么框架。
解决完架构基本满意后执行阶段就是快,推荐一下fireworks这个套餐比窜稀还快。运行出现问题,几个小的变量名错误,修复后初见端倪了,前端网页基本三步一个坑,列表显示错位,一点点组件显示不全,很多页面压根就是空文件一个占位的。我已红温,重新强调修复后还是修复一个bug引入新的bug的循环。并且在vibe过程中发现mcp调用压根没有啊,我在claude.md里有简单的约束使用auggie和exa之类的,从头到尾他一个mcp也没调用,换成glm或者opus4.6就完全没问题,在初始阶段就会调用auggie索引确认相关代码然后exa搜索文档之类的。
而且在对话中kimi很喜欢不了解上下文直接开写,开新对话后如果不强调用auggie理解一下现有代码他会直接开个新文件把旧的已经实现的需求再写一遍,到这我感觉已经是我提示词约束太差导致的了。
vibe了3个小时才终于把能看见的bug修完初步能跑。
结局
还没测试glm但是体感这kimik2.5也太差了,难道是我提示词太精简的原因?因为opus太贵了我把提示词精简的很极限,但是opus用起来没问题,sonnet4.6也没问题。
这模型让我回到了青春,和gemini2.0p青涩的对话写项目,尝试浑身解数让她理解我(误。
总而言之我体感不如sonnet4.6甚至有没有sonnet4.5强都是问题,明天我优化一下提示词再试试,如果让我改观我再发个帖子夸一次。
网友解答:--【壹】--:
firework的有降智 同一个提示词写一个番茄钟单文件html,硅基流动的k2.5写出来没问题
firework的不能正常运行
刚又试了一遍 今天的能正常工作了,但是效果还是差一些比硅基流动的
还是不少量化感觉
--【贰】--:
国产现在貌似glm5.1最强 然后小米新开的mimov2pro也挺厉害 其他的模型感觉区别不是很大 我有一直在用minimax2.7感觉比较一般有时候还会降智
--【叁】--:
佬,试试glm
--【肆】--:
我切成ollama的kimi又跑了一轮感觉几乎完全一致啊,除了慢了点问题还是我说的那些
--【伍】--:
hhh花点钱上个team车吧,一个号的用量轻度开发还是够的
--【陆】--:
单纯国产垃圾
--【柒】--:
确实,glm和kimi跑同一个任务glm很少出问题,修bug不会修一个多一个,但是和sonnet4.5比感觉还是缺少点理解能力
--【捌】--:
确实量化过的,快但不行
--【玖】--:
Kimi一般我用来润色公文,没跑过代码
--【拾】--:
帖子下面推荐的其他测评感觉和我用的都不是一个模型了,这么多说好用的感觉说不定真是我提示词不行,明天我再试试不行再喷
--【拾壹】--:
太快的东西先怀疑是不是量化的,k2.5不是小模型
不过即便没量化肯定也是比不上claude的,kimi用来搞搞文字工作啥的不错,代码能力感觉是比不上glm
--【拾贰】--:
kimi和minimax我体验下来指令遵循能力不太行,可能是我gpt用多了胃口养刁了,去年四五月,我觉得代码模型能用就行,不管准不准好歹比古法编程快且方便,但是自从后面用了claude和codex,我发现真的是模型越好,vibe体验越好,不用去纠结细枝末节的实现,只用沟通需求
--【拾叁】--: mi tu:
kimik2.5在论坛里有的人说已经超越sonnet4.6
这绝对是瞎说,谁给他的勇气
另外,我建议你用下 ccw,效果会好很多
--【拾肆】--:
快是真快,毛过来玩claw了,实际用确实发现遵循有问题
--【拾伍】--:
不知道Deepseek v4咋样,不要拉一坨啊
--【拾陆】--:
简单测试过,感觉在我这个场景,比kimi好用,和sonnet4.5差不多了,但是总体上有没有sonnet4.5的水平不好说
更正一下,感觉比sonnet4.5在前端上更好一点甚至,很多地方都更像opus4.5,但是有种定向蒸馏的感觉,在通识和平时问答感觉又不如kimi了
--【拾柒】--:
国产模型直接从 0 → 1 会有抽奖的感觉
然后 firework 没意外应该是 FP4 量化,不然不会这么快
不过在代码搜寻上,对我来说挺好用的
--【拾捌】--:
刚直接订阅plus了,测了大半天结果感觉在项目里根本用不了
--【拾玖】--:
站里有佬测试过unity项目,明显glm要比kimi好一截。UEFIBlog也测了UEFI场景,glm也是要好得多。我自己阿里coding plan用下来体感也是这样

