Mimo v2.5 Pro测评:进步不错,问题也大

2026-04-29 11:192阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

放私有bench
image946×414 9.08 KB

mimo 2.0 pro测评

米÷来袭,学习先进的GLM工艺,Mimo v2 Pro正式版依旧大砍 开发调优
[image] 比较匿名时期的Hunter-alpha能力差了一大截,代码基本不可用,全部都要返工修小bug。从小巧思还能看出hunter的影子,但是能力差太多 [image] 现在写的东西已经不是人类了 [image] [image] 我看罗福莉离开deepseek是对的啊

这个模型的基础还算扎实,但是比glm还差点。
而且很多有背题嫌疑
image1479×684 198 KB
比如这个MC,看起来写的相当不错,但是竟然存在无法跳跃的bug。遥想2.0p时期写出来的MC,不知道背的谁家,,
image946×801 141 KB
image1498×609 83.9 KB
这个案例里,其他逻辑都还行,结果建筑绘制拉了

而且在测试途中,爆思维链的现象非常严重
image606×500 9.03 KB
罗福莉你看你带的兵
思维链无限循环撑爆上下文,然后空回

不过还是要感叹一下,小米这个迭代速度有点吓人了。现在这llm公司们都卷疯了,,

网友解答:
--【壹】--:

感觉训练过拟合了?如果是背的是数据集的数据那就是


--【贰】--:

在用的过程中也是感觉思维链太长了,但是输出又不行,所以我的体感就是更贵了


--【叁】--:

我昨天通宵用了用mimo的新模型,体验确实还不错。但问题也有:
mimo经常在思考的时候就回答了用户,所以如果某些agent隐藏了思考过程就可能会看不到mimo的回复了;我还遇到过一次,mimo输出的时候中英混合;我甚至还遇到一次mimo回复我说没检测到任何上下文的,我重试了一次就好了,莫名其妙的(这一点不确定是模型还是agent的锅)。
不过我不觉得以上这些问题是啥大问题,它至少编码能力挺不错,语言风格我也很喜欢,聊起来挺舒畅。


--【肆】--:

这bench是代码还是综合?kimi k2.6这么差吗?


--【伍】--:

看得出来,有不少重复内容,而且存在自言自语严重的情况,与GLM5.1还是有一些差距的


--【陆】--:

管理在群里说这个 v2.5 pro 模型即将开源。


--【柒】--:

MiMo不知道哪来的信息直接测了pku-mimic课程
作为一个寒假才靠着Gemini帮我找问题才完成的学生,我前前后后大概花了一个月的时间才完成
截屏2026-04-23 12.11.54777×1013 119 KB


--【捌】--:

开源是好事,可以看看它的token价格是否真的合理


--【玖】--:

那很多任务本来token消耗严重,很容易刷没了。本来限定额度

标签:人工智能
问题描述:

放私有bench
image946×414 9.08 KB

mimo 2.0 pro测评

米÷来袭,学习先进的GLM工艺,Mimo v2 Pro正式版依旧大砍 开发调优
[image] 比较匿名时期的Hunter-alpha能力差了一大截,代码基本不可用,全部都要返工修小bug。从小巧思还能看出hunter的影子,但是能力差太多 [image] 现在写的东西已经不是人类了 [image] [image] 我看罗福莉离开deepseek是对的啊

这个模型的基础还算扎实,但是比glm还差点。
而且很多有背题嫌疑
image1479×684 198 KB
比如这个MC,看起来写的相当不错,但是竟然存在无法跳跃的bug。遥想2.0p时期写出来的MC,不知道背的谁家,,
image946×801 141 KB
image1498×609 83.9 KB
这个案例里,其他逻辑都还行,结果建筑绘制拉了

而且在测试途中,爆思维链的现象非常严重
image606×500 9.03 KB
罗福莉你看你带的兵
思维链无限循环撑爆上下文,然后空回

不过还是要感叹一下,小米这个迭代速度有点吓人了。现在这llm公司们都卷疯了,,

网友解答:
--【壹】--:

感觉训练过拟合了?如果是背的是数据集的数据那就是


--【贰】--:

在用的过程中也是感觉思维链太长了,但是输出又不行,所以我的体感就是更贵了


--【叁】--:

我昨天通宵用了用mimo的新模型,体验确实还不错。但问题也有:
mimo经常在思考的时候就回答了用户,所以如果某些agent隐藏了思考过程就可能会看不到mimo的回复了;我还遇到过一次,mimo输出的时候中英混合;我甚至还遇到一次mimo回复我说没检测到任何上下文的,我重试了一次就好了,莫名其妙的(这一点不确定是模型还是agent的锅)。
不过我不觉得以上这些问题是啥大问题,它至少编码能力挺不错,语言风格我也很喜欢,聊起来挺舒畅。


--【肆】--:

这bench是代码还是综合?kimi k2.6这么差吗?


--【伍】--:

看得出来,有不少重复内容,而且存在自言自语严重的情况,与GLM5.1还是有一些差距的


--【陆】--:

管理在群里说这个 v2.5 pro 模型即将开源。


--【柒】--:

MiMo不知道哪来的信息直接测了pku-mimic课程
作为一个寒假才靠着Gemini帮我找问题才完成的学生,我前前后后大概花了一个月的时间才完成
截屏2026-04-23 12.11.54777×1013 119 KB


--【捌】--:

开源是好事,可以看看它的token价格是否真的合理


--【玖】--:

那很多任务本来token消耗严重,很容易刷没了。本来限定额度

标签:人工智能