电子斗蛐蛐:小米mimo vs 智谱glm vs GPT
- 内容介绍
- 文章标签
- 相关推荐
从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?
昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。
小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer
战况如下:
mimo-v2.5-pro:
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1
glm-5v-turbo:
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1
glm-5.1:
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2
gpt-5.4-xhigh:
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4
gpt-5.4-high:
额外 prompt 0次,合计消息169条,用时18分钟,token数 5.1M,文件修改数 3
主观体验:
mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。
glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。
glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。
gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。
gpt-5.4-high 唯一真神,仅根据初始提示词,仅使用18分钟时间,一次性完成修改
本场斗蛐蛐的胜者是:gpt-5.4-high
第二名:mimo-v2.5-pro / glm-5.1
唯一真神:gpt-5.4-high,评价为 夯爆了
mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为 夯。
glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。
gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC。
本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。
网友解答:--【壹】--:
ds v4跟gpt5.5可以请求加入战斗吗
--【贰】--:
不如5.4 high,xhigh太磨叽了
--【叁】--:
xhigh容易考虑太多,我正常连5.4都不用,我基本都用5.4mini,速度太快了比5.4快好几倍价格还特便宜,简单的任务完成度也很好,mini改两遍改不对我才换5.4,你可以试试5.4mini,感觉比国模好用
--【肆】--:
佬友的评价没毛病,gpt-5.4-high 夯爆了,0次额外提示,一把梭解决问题!
从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?
昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。
小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer
战况如下:
mimo-v2.5-pro:
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1
glm-5v-turbo:
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1
glm-5.1:
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2
gpt-5.4-xhigh:
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4
gpt-5.4-high:
额外 prompt 0次,合计消息169条,用时18分钟,token数 5.1M,文件修改数 3
主观体验:
mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。
glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。
glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。
gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。
gpt-5.4-high 唯一真神,仅根据初始提示词,仅使用18分钟时间,一次性完成修改
本场斗蛐蛐的胜者是:gpt-5.4-high
第二名:mimo-v2.5-pro / glm-5.1
唯一真神:gpt-5.4-high,评价为 夯爆了
mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为 夯。
glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。
gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC。
本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。
网友解答:--【壹】--:
ds v4跟gpt5.5可以请求加入战斗吗
--【贰】--:
不如5.4 high,xhigh太磨叽了
--【叁】--:
xhigh容易考虑太多,我正常连5.4都不用,我基本都用5.4mini,速度太快了比5.4快好几倍价格还特便宜,简单的任务完成度也很好,mini改两遍改不对我才换5.4,你可以试试5.4mini,感觉比国模好用
--【肆】--:
佬友的评价没毛病,gpt-5.4-high 夯爆了,0次额外提示,一把梭解决问题!

