GPT 5.5 的 juice 真有 192吗？这更像一个谎言。

2026-04-29 08:052阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

作为一个在读博士，我经常会思考和询问复杂的数理问题。我在5.4时代就发现，5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192，我用prompt测试回答的也是192。但它真有这么聪明吗？
我询问5.5和5.2相同的问题，一个我非常确定thinking的一条回答解决不了的问题。
image1353×383 10.5 KB
image1073×587 15.5 KB

可以很直接地看出，回答的时间和思维链长度有极其明显的差别。
不仅如此，5.5的回答可以说毫无质量可言，基本上相当于对目前的研究进展做了个综述。
这点，gemini的回答也印证了我的判断
image975×622 68.4 KB

可以看出，OAI为了降本增效脸都不要了。我倒宁愿它能给少一点用量，但要保证回答的质量。

网友解答：

--【壹】--：

非常认可，之前用网页版来辅助写论文非常好用，现在的5.5虽然回答得快且说人话了，但质量下降太多了

--【贰】--：

我也是这个感觉，讨厌死了，做文字多步推理他是一点都不思考，秒拉屎，一大坨。就给出那种类似综述，简单介绍一下是怎么样太表层了。想做指令约束回答也很难，写好的约束给Claude执行效果巨好，给GPT让我有一种想扔垃圾桶再也不想用的感觉。从GPT5.3开始我就很难受了，GPT5.2是可以的，Pro模型还行，可能这就是实打实算力的感觉吧。后面直接用claude了…

--【叁】--：

codex就是写代码专用，解题很依赖网络搜索跟多步推理，这方面app/网页端做的好多了

--【肆】--：

~~要不你先怀疑一下你的渠道？还是你没开xhigh？~~
没注意到是网页端不太了解抱歉了

PixPin2026-04-2823-48-131409×418 26.9 KB
PixPin2026-04-2823-49-071375×403 26.6 KB

--【伍】--：

如果人家一直都在用网页端，那么人家说的就没有问题

--【陆】--：

Juice 不等价智商，只代表思考预算占比
只是有些人喜欢拿它来看降智而已

然后现在哪有模型在钻研数理问题
都在搞代理、世界知识、编程
上一个宣称专精的已经变边角料了

--【柒】--：

（帖子已被作者删除）

--【捌】--：

这个是api，网页端thking进阶就是192，而且这版有个问题，就是简单开放问题回答的相当懈怠

--【玖】--： Chen9865:

5.5的数理能力宣传上可是明显高过5.2的

有没有一种可能，数理能力的宣传还有跑分之类的，用的是不降智的思考预算拉满的API端的5.5……
所以你觉得Web端的GPT 5.5的juice高，但是表现差，那确实是OAI降本增效，web端的模型表现比不上API端的，也比不上宣传的、送测的……很正常（）

--【拾】--： GPT 5.5 / Pro 你这让我怎么相信你？16+2=24 你怎么敢说的？做这个题你还不如阉割版o3（只有网页版！）

放在5.2t或者别的ai都会纠正我然后给出我要的信息，5.4t真是烂完了不打对名字它连查都不会

我都是日常问题的，同感5.2t比5.4t强很多，5.5还没用过，现在只用grok heavy 了，感觉gpt现在新模型都是在codex上发力，其他人体验都不好。

--【拾壹】--： Wolke_Wolke:

GPT 5.5 Xhigh的juice是768，GPT 5.4 Xhigh的juice是512，难道就能说768 > 512，所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……

但是假设是Codex调用GPT 5.4 Xhigh，juice是512，GPT 5.4 High的juice是96，那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入

叠甲：用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同

5.5的数理能力宣传上可是明显高过5.2的，而且再怎么样也不能退步吧
5.5的xhigh难道能比5.4的xhigh差吗
（我用codex的场景比较初步，暂时没发现二者有能力的差距）

--【拾贰】--：

佬友跟我的使用体验一样，5.5出来的时候我还在想这速度怎么变得这么快？但是我用个两天发现，输出质量真一般，思维链砍短了。尤其是加上“尽可能详细些”，它能给你扩展到30多条内容，但是仔细看内容真的没眼看

--【拾叁】--：

5.2的思考倒是一直给的挺足的。

或者是否有可能就是5.2更严谨）？

--【拾肆】--：

这里实际上比较复杂，首先，楼上说的不同模型不能横向比 Juice 是对的

然后我的实验和观点是

5.5 系列洞察力更强（token效率更高），但不喜欢想太多，我倾向于这是一种预期的策略，OAI大概的想法是：

OK，既然我的模型 token efficiency 高，那我就尽量不要让他想那么多（因为这就是我提高 token efficiency 的原因）。也有不少证据表明对于大部分问题 thinking token 有边际效应，也就是刚开始 reasoning token 比较少的时候去增加是能大幅提升能力的，已经想了很多的情况下，继续加，未必能解决问题，既然如此我不如引导模型不要想这么多

这套想法在绝大多数场景下是没有任何问题的，而且用户体验好了不只一点，但在一些edge cases上就是会有问题，比如24点，他就是不愿意去穷举，所以在这个问题上甚至比不过狂想的deepseek之流。

我也有一个积分题，其中一个代换是要有点穷举的，5.5xhigh想了一会就会说没有闭式解，但实际上是有的，deepseek都能穷举出来。但是也不得不承认对大部分日常数理问题他就是又快又好,正文首字现在甚至能干掉以快著称的Gemini,同时对绝大多数问题仍然很好

总的来说我觉得还是一种 trade-off 把，对最顶尖的那些power user可能是会有影响，但对大部分人来说这似乎是值得的. 希望后续版本能够改进这一点

--【拾伍】--： Chen9865:

我在5.4时代就发现，5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192，我用prompt测试回答的也是192。

模型代际之间比较juice number的绝对值的参考意义比不上模型同一代之间比较juice number的绝对值吧……

比如同样是Codex调用，GPT 5.5 Xhigh的juice是768，GPT 5.4 Xhigh的juice是512，难道就能说768 > 512，所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……

但是假设是Codex调用GPT 5.4 Xhigh，juice是512，GPT 5.4 High的juice是96，那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入

叠甲：用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同

--【拾陆】--：

我用的网页端。我不认为codex在解题上有什么用

标签：ChatGpt 人工智能纯水