电子斗蛐蛐:小米mimo vs 智谱glm vs GPT

2026-04-29 10:312阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?

昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。

小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer

战况如下:

mimo-v2.5-pro
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1

glm-5v-turbo
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1

glm-5.1
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2

gpt-5.4-xhigh
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4

gpt-5.4-high
额外 prompt 0次,合计消息169条,用时18分钟,token数 5.1M,文件修改数 3


主观体验:

mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。

glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。

glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。

gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。

gpt-5.4-high 唯一真神,仅根据初始提示词,仅使用18分钟时间,一次性完成修改


本场斗蛐蛐的胜者是:gpt-5.4-high

第二名:mimo-v2.5-pro / glm-5.1

唯一真神:gpt-5.4-high,评价为 夯爆了

mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为

glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。

gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC

本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。

网友解答:
--【壹】--:

ds v4跟gpt5.5可以请求加入战斗吗


--【贰】--:

不如5.4 high,xhigh太磨叽了


--【叁】--:

xhigh容易考虑太多,我正常连5.4都不用,我基本都用5.4mini,速度太快了比5.4快好几倍价格还特便宜,简单的任务完成度也很好,mini改两遍改不对我才换5.4,你可以试试5.4mini,感觉比国模好用


--【肆】--:

佬友的评价没毛病,gpt-5.4-high 夯爆了,0次额外提示,一把梭解决问题!

问题描述:

从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?

昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。

小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer

战况如下:

mimo-v2.5-pro
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1

glm-5v-turbo
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1

glm-5.1
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2

gpt-5.4-xhigh
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4

gpt-5.4-high
额外 prompt 0次,合计消息169条,用时18分钟,token数 5.1M,文件修改数 3


主观体验:

mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。

glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。

glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。

gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。

gpt-5.4-high 唯一真神,仅根据初始提示词,仅使用18分钟时间,一次性完成修改


本场斗蛐蛐的胜者是:gpt-5.4-high

第二名:mimo-v2.5-pro / glm-5.1

唯一真神:gpt-5.4-high,评价为 夯爆了

mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为

glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。

gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC

本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。

网友解答:
--【壹】--:

ds v4跟gpt5.5可以请求加入战斗吗


--【贰】--:

不如5.4 high,xhigh太磨叽了


--【叁】--:

xhigh容易考虑太多,我正常连5.4都不用,我基本都用5.4mini,速度太快了比5.4快好几倍价格还特便宜,简单的任务完成度也很好,mini改两遍改不对我才换5.4,你可以试试5.4mini,感觉比国模好用


--【肆】--:

佬友的评价没毛病,gpt-5.4-high 夯爆了,0次额外提示,一把梭解决问题!