继续吐槽 GPT-5.4 系列
- 内容介绍
- 文章标签
- 相关推荐
继
5.4-mini 牙膏倒吸? 开发调优知乎野榜说的。 link5.4,大跌眼镜 开发调优
刚才有个题调不出来,扔给 GPT-5.4,第一轮用了一堆工具花了二十分钟给了一个明显错误的结论,第二轮过了十分多钟实在没耐心等了。 开了个 Gemini-3.1-Pro,不到十分钟搞定。 又试了一遍标准思考,这次一轮就对了。但是花了 16 分钟,感觉还是不如 Gemini 啊。 没绷住,糖包专家模式都搞出来了,用时和 Gemini 差不多。感觉 GPT 就是工具太多了,明明看两眼就能看出…
之后,我又来吐槽 GPT-5.4 系列了。
全站最尊重 5.4 的用户
事情是这样的,我刚才写了一道图论的题目,但算法模板都写错了,WA,自己看了两遍没看出来,然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。
豆包虽然自己多编了一个不存在的错误,但至少确实把那个错误找出来了。
而我们伟大的 GPT-5.4-mini 呢?
它思考了一分钟后得出结论,我的代码 WA 是因为 DFS 过深,栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。
我:啊?
“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗?
感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。
继
5.4-mini 牙膏倒吸? 开发调优知乎野榜说的。 link5.4,大跌眼镜 开发调优
刚才有个题调不出来,扔给 GPT-5.4,第一轮用了一堆工具花了二十分钟给了一个明显错误的结论,第二轮过了十分多钟实在没耐心等了。 开了个 Gemini-3.1-Pro,不到十分钟搞定。 又试了一遍标准思考,这次一轮就对了。但是花了 16 分钟,感觉还是不如 Gemini 啊。 没绷住,糖包专家模式都搞出来了,用时和 Gemini 差不多。感觉 GPT 就是工具太多了,明明看两眼就能看出…
之后,我又来吐槽 GPT-5.4 系列了。
全站最尊重 5.4 的用户
事情是这样的,我刚才写了一道图论的题目,但算法模板都写错了,WA,自己看了两遍没看出来,然后开启 AI 会诊。gemini、qwen、deepseek、glm 全部看出来了这个错误。
豆包虽然自己多编了一个不存在的错误,但至少确实把那个错误找出来了。
而我们伟大的 GPT-5.4-mini 呢?
它思考了一分钟后得出结论,我的代码 WA 是因为 DFS 过深,栈空间不足。还声称在某些平台上爆栈会导致内存里的数据被污染导致 WA。
我:啊?
“爆栈导致 WA”真的是一个精神状态正常的 LLM / 对计算机科学有一定了解的人类能说出的观点吗?
感觉现在 GPT-5.4 系列正在快速摧毁由 5-mini 和 5.2-high 建立起的我对 GPT 的信任。以后算法竞赛相关问题真的应该优先找 Gemini 了。

