继续吐槽 GPT-5.4 系列
- 内容介绍
- 文章标签
- 相关推荐
继
5.4-mini 牙膏倒吸? 开发调优知乎野榜说的。 link5.4,大跌眼镜 开发调优
刚才有个题调不出来,扔给 GPT-5.4,第一轮用了一堆工具花了二十分钟给了一个明显错误的结论,第二轮过了十分多钟实在没耐心等了。 开了个 Gemini-3.1-Pro,不到十分钟搞定。 又试了一遍标准思考,这次一轮就对了。但是花了 16 分钟,感觉还是不如 Gemini 啊。 没绷住,糖包专家模式都搞出来了,用时和 Gemini 差不多。感觉 GPT 就是工具太多了,明明看两眼就能看出…
之后,我又来吐槽 GPT-5.4 系列了。
全站最尊重 5.4 的用户
事情是这样的,我刚才写了一道图论的题目,但算法模板都写错了,WA,自己看了两遍没看出来,然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。
豆包虽然自己多编了一个不存在的错误,但至少确实把那个错误找出来了。
而我们伟大的 GPT-5.4-mini 呢?
它思考了一分钟后得出结论,我的代码 WA 是因为 DFS 过深,栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。
我:啊?
“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗?
感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。
网友解答:--【壹】--:
5.4 mini其实甚至智力不如5 mini
--【贰】--:
对的,我想表达的就是这个意思
--【叁】--:
因为这涉及我的提交记录,涉及我在其他网络平台上的身份,所以我不想公开。
别的做软件工程的佬吐槽 AI 也不用把正在做的项目和整个项目的代码都公开吧……
另外,“非家宽就降智”有什么依据吗?根据我在 Team 被封之前的使用经历,好像只要 IP 稳定 juice 就是正常的。
--【肆】--:
就是 Web 端啊哥们,算法竞赛都是单文件,一份最多几百行,直接粘到网页上的。就一堆单文件用 IDE/CLI 是真的迷惑行为吧
--【伍】--:
没5.4你用claude/其他模型不就得了,用5.4mini干嘛捏?它要真好用叫mini干嘛?
--【陆】--:
前面一段时间 Team 挂了,我现在是免费用户,网页端开思考就是 5.4-mini
--【柒】--:
我也是学生党啦 hhh,不过生产力嘛,花点钱还是可以的,佬你看看有没有其他渠道可以白嫖下呢?
如果可以的话,希望可以帮到你
--【捌】--:
鉴定为被降智了
当你发现某个模型在胡扯的时候,不要怀疑自己,一定是模型的问题
--【玖】--:
现在已经有一切问题都cli的趋势了,除了grok用来搜索感觉我都好久没打开网页端了
--【拾】--:
如果可以其实还是比较推荐用下 Claude 系列模型,gpt5.4 这个系列我感觉真的有点 overthinking 的嫌疑了
--【拾壹】--:
web好像有过度思考的问题
--【拾贰】--:
这个和 3.1 pro 没啥关系吧,我用的是 3 flash,而且还有 qwen、deepseek、GLM、糖包都能回答对。我认为就是 5.4-mini 在这方面的能力较弱。
至于 GPT-5.4,我现在是免费账号,有啥方法用上吗(?
--【拾叁】--:
其实不怎么建议 Mini,都是蒸馏过后的模型了,其实佬你实在可以的话可以尝试开一个 Plus 会员试一试,thingking 高级模式会很不错,或者开一个 enterprise 可以用 pro 最高系列模型。如果单纯是算法角度的话,5.4-mini 的水平还是太差了,甚至可能比不上国产类的。我觉得 5.4 系列模型最糟糕的是废话很多。每次都是讲一大堆,最后得出一个很简单的结论。
关于算法还是建议用好一点的模型。
--【拾肆】--:
我个人用的 Codex CLI 和 VSCode Codex 插件,GPT-5.4 high/xhigh,没有遇到明显的降智问题。目前论坛上最明显的 IP 降智证据应该是网页版的 GPT 5.4 Pro 的思考时间,正常一般是 30 分钟起步到 1 小时不等。但是有的佬友发现提问时它只思考了十几分钟就应付了事,输出质量也很低。
想问下 GPT-5.4 对于你的问题输出如何?感觉 Gemini 3.1 Pro 应该是明显高于 GPT-5.4-mini 的,毕竟从 API 价格上就能看出差了不少,而且 GPT-5.4-mini 不支持长上下文.
Pricing | OpenAI API
Pricing information for the OpenAI platform.
Vertex AI 价格 | Google Cloud
了解 Vertex AI 中生成式 AI 模型的训练、部署和预测的灵活价格。高效构建和扩缩智能应用。
--【拾伍】--:
学生党真没这个条件,感觉 gemini 3 flash 就挺好的了(
--【拾陆】--:
Mini的应用场景是什么?我好像都没有用过Mini。轻量的问题用Gemini 3 Flash或者Claude Hiku。重度的问题一般直接5.4 High Resonning。
--【拾柒】--:
主要是 CLI 在我们 OIer 的使用场景确实没有什么优势,我目前也没有什么工程(
就是我们更在乎模型的智力,不需要它的长上下文、前端能力或者 Agent 能力这种。
算法题和数学题之间的差别是远小于算法题和工程的差别的。
--【拾捌】--:
公益站逆向吗,还是什么别的
--【拾玖】--:
每个模型的回答呢,给出可以上手试的题目啊,gpt没有用家宽的是降智的版本
继
5.4-mini 牙膏倒吸? 开发调优知乎野榜说的。 link5.4,大跌眼镜 开发调优
刚才有个题调不出来,扔给 GPT-5.4,第一轮用了一堆工具花了二十分钟给了一个明显错误的结论,第二轮过了十分多钟实在没耐心等了。 开了个 Gemini-3.1-Pro,不到十分钟搞定。 又试了一遍标准思考,这次一轮就对了。但是花了 16 分钟,感觉还是不如 Gemini 啊。 没绷住,糖包专家模式都搞出来了,用时和 Gemini 差不多。感觉 GPT 就是工具太多了,明明看两眼就能看出…
之后,我又来吐槽 GPT-5.4 系列了。
全站最尊重 5.4 的用户
事情是这样的,我刚才写了一道图论的题目,但算法模板都写错了,WA,自己看了两遍没看出来,然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。
豆包虽然自己多编了一个不存在的错误,但至少确实把那个错误找出来了。
而我们伟大的 GPT-5.4-mini 呢?
它思考了一分钟后得出结论,我的代码 WA 是因为 DFS 过深,栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。
我:啊?
“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗?
感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。
网友解答:--【壹】--:
5.4 mini其实甚至智力不如5 mini
--【贰】--:
对的,我想表达的就是这个意思
--【叁】--:
因为这涉及我的提交记录,涉及我在其他网络平台上的身份,所以我不想公开。
别的做软件工程的佬吐槽 AI 也不用把正在做的项目和整个项目的代码都公开吧……
另外,“非家宽就降智”有什么依据吗?根据我在 Team 被封之前的使用经历,好像只要 IP 稳定 juice 就是正常的。
--【肆】--:
就是 Web 端啊哥们,算法竞赛都是单文件,一份最多几百行,直接粘到网页上的。就一堆单文件用 IDE/CLI 是真的迷惑行为吧
--【伍】--:
没5.4你用claude/其他模型不就得了,用5.4mini干嘛捏?它要真好用叫mini干嘛?
--【陆】--:
前面一段时间 Team 挂了,我现在是免费用户,网页端开思考就是 5.4-mini
--【柒】--:
我也是学生党啦 hhh,不过生产力嘛,花点钱还是可以的,佬你看看有没有其他渠道可以白嫖下呢?
如果可以的话,希望可以帮到你
--【捌】--:
鉴定为被降智了
当你发现某个模型在胡扯的时候,不要怀疑自己,一定是模型的问题
--【玖】--:
现在已经有一切问题都cli的趋势了,除了grok用来搜索感觉我都好久没打开网页端了
--【拾】--:
如果可以其实还是比较推荐用下 Claude 系列模型,gpt5.4 这个系列我感觉真的有点 overthinking 的嫌疑了
--【拾壹】--:
web好像有过度思考的问题
--【拾贰】--:
这个和 3.1 pro 没啥关系吧,我用的是 3 flash,而且还有 qwen、deepseek、GLM、糖包都能回答对。我认为就是 5.4-mini 在这方面的能力较弱。
至于 GPT-5.4,我现在是免费账号,有啥方法用上吗(?
--【拾叁】--:
其实不怎么建议 Mini,都是蒸馏过后的模型了,其实佬你实在可以的话可以尝试开一个 Plus 会员试一试,thingking 高级模式会很不错,或者开一个 enterprise 可以用 pro 最高系列模型。如果单纯是算法角度的话,5.4-mini 的水平还是太差了,甚至可能比不上国产类的。我觉得 5.4 系列模型最糟糕的是废话很多。每次都是讲一大堆,最后得出一个很简单的结论。
关于算法还是建议用好一点的模型。
--【拾肆】--:
我个人用的 Codex CLI 和 VSCode Codex 插件,GPT-5.4 high/xhigh,没有遇到明显的降智问题。目前论坛上最明显的 IP 降智证据应该是网页版的 GPT 5.4 Pro 的思考时间,正常一般是 30 分钟起步到 1 小时不等。但是有的佬友发现提问时它只思考了十几分钟就应付了事,输出质量也很低。
想问下 GPT-5.4 对于你的问题输出如何?感觉 Gemini 3.1 Pro 应该是明显高于 GPT-5.4-mini 的,毕竟从 API 价格上就能看出差了不少,而且 GPT-5.4-mini 不支持长上下文.
Pricing | OpenAI API
Pricing information for the OpenAI platform.
Vertex AI 价格 | Google Cloud
了解 Vertex AI 中生成式 AI 模型的训练、部署和预测的灵活价格。高效构建和扩缩智能应用。
--【拾伍】--:
学生党真没这个条件,感觉 gemini 3 flash 就挺好的了(
--【拾陆】--:
Mini的应用场景是什么?我好像都没有用过Mini。轻量的问题用Gemini 3 Flash或者Claude Hiku。重度的问题一般直接5.4 High Resonning。
--【拾柒】--:
主要是 CLI 在我们 OIer 的使用场景确实没有什么优势,我目前也没有什么工程(
就是我们更在乎模型的智力,不需要它的长上下文、前端能力或者 Agent 能力这种。
算法题和数学题之间的差别是远小于算法题和工程的差别的。
--【拾捌】--:
公益站逆向吗,还是什么别的
--【拾玖】--:
每个模型的回答呢,给出可以上手试的题目啊,gpt没有用家宽的是降智的版本

