Kimi K2.6 的基准测试对比图
- 内容介绍
- 文章标签
- 相关推荐
1000005878.png900×505 89.2 KB
网友解答:--【壹】--:
image2530×1184 165 KB
刚刚使用claudecode+kimi2.6随便让他写了个“CRM看板演示页面”
--【贰】--:
谢谢解答,总体国产模型的确堪用了,期待deepseek更好的表现
--【叁】--:
一般这种情况我会去蹲一下SillyTavern的reddit,他们一般给反馈给的很快。
--【肆】--:
我没太关注酒馆社区 都是一个人圈地自萌 有讨论结果了能麻烦佬友转一个嘛
--【伍】--:
感觉挺强的,希望价格能降到20元/月,跟国外美刀对齐
--【陆】--:
image1347×1121 134 KB
image1285×958 193 KB
看到说还是会和k2.5一样有overthinking的问题,复杂prompt的情况下会导致它思考过多,这个发生在你用了某些重型preset的情况下应该。
这个图里面说的FreakyFrankenstein就是一个preset。
这个在思考阶段就hit了32k的硬截断,导致没有实际内容输出,全都是thinking。
还需要继续观察。
--【柒】--:
价格还是高啊,什么时候价格能降下来呢, 道阻且长
--【捌】--:
的确有过度思考的问题存在,整体的编程能力比GLM5.1如何?真的接近Opus 4.6了吗
--【玖】--:
编程能力这块就是众说纷纭了吧哈哈,我在这里就不下定论了,感觉编程这块要佬友自己在自己的实际任务上跑一下才能给出自己的判断,我这里就只关注RP这块,毕竟k2.5也是外网比较流行的rp模型之一。当然这里也有人说可以到差不多85%的opus 4.7,仅供参考。
1000005878.png900×505 89.2 KB
网友解答:--【壹】--:
image2530×1184 165 KB
刚刚使用claudecode+kimi2.6随便让他写了个“CRM看板演示页面”
--【贰】--:
谢谢解答,总体国产模型的确堪用了,期待deepseek更好的表现
--【叁】--:
一般这种情况我会去蹲一下SillyTavern的reddit,他们一般给反馈给的很快。
--【肆】--:
我没太关注酒馆社区 都是一个人圈地自萌 有讨论结果了能麻烦佬友转一个嘛
--【伍】--:
感觉挺强的,希望价格能降到20元/月,跟国外美刀对齐
--【陆】--:
image1347×1121 134 KB
image1285×958 193 KB
看到说还是会和k2.5一样有overthinking的问题,复杂prompt的情况下会导致它思考过多,这个发生在你用了某些重型preset的情况下应该。
这个图里面说的FreakyFrankenstein就是一个preset。
这个在思考阶段就hit了32k的硬截断,导致没有实际内容输出,全都是thinking。
还需要继续观察。
--【柒】--:
价格还是高啊,什么时候价格能降下来呢, 道阻且长
--【捌】--:
的确有过度思考的问题存在,整体的编程能力比GLM5.1如何?真的接近Opus 4.6了吗
--【玖】--:
编程能力这块就是众说纷纭了吧哈哈,我在这里就不下定论了,感觉编程这块要佬友自己在自己的实际任务上跑一下才能给出自己的判断,我这里就只关注RP这块,毕竟k2.5也是外网比较流行的rp模型之一。当然这里也有人说可以到差不多85%的opus 4.7,仅供参考。

