GPT 5.5 的 juice 真有 192吗?这更像一个谎言。
- 内容介绍
- 文章标签
- 相关推荐
作为一个在读博士,我经常会思考和询问复杂的数理问题。我在5.4时代就发现,5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192,我用prompt测试回答的也是192。但它真有这么聪明吗?
我询问5.5和5.2相同的问题,一个我非常确定thinking的一条回答解决不了的问题。
image1353×383 10.5 KB
image1073×587 15.5 KB
可以很直接地看出,回答的时间和思维链长度有极其明显的差别。
不仅如此,5.5的回答可以说毫无质量可言,基本上相当于对目前的研究进展做了个综述。
这点,gemini的回答也印证了我的判断
image975×622 68.4 KB
可以看出,OAI为了降本增效脸都不要了。我倒宁愿它能给少一点用量,但要保证回答的质量。
网友解答:--【壹】--:
非常认可,之前用网页版来辅助写论文非常好用,现在的5.5虽然回答得快且说人话了,但质量下降太多了
--【贰】--:
我也是这个感觉,讨厌死了,做文字多步推理他是一点都不思考,秒拉屎,一大坨。就给出那种类似综述,简单介绍一下是怎么样太表层了。想做指令约束回答也很难,写好的约束给Claude执行效果巨好,给GPT让我有一种想扔垃圾桶再也不想用的感觉。从GPT5.3开始我就很难受了,GPT5.2是可以的,Pro模型还行,可能这就是实打实算力的感觉吧。后面直接用claude了…
--【叁】--:
codex就是写代码专用,解题很依赖网络搜索跟多步推理,这方面app/网页端做的好多了
--【肆】--:
要不你先怀疑一下你的渠道?还是你没开xhigh?
没注意到是网页端 不太了解 抱歉了
PixPin2026-04-2823-48-131409×418 26.9 KB
PixPin2026-04-2823-49-071375×403 26.6 KB
--【伍】--:
如果人家一直都在用网页端,那么人家说的就没有问题
--【陆】--:
Juice 不等价智商,只代表思考预算占比
只是有些人喜欢拿它来看降智而已
然后现在哪有模型在钻研数理问题
都在搞代理、世界知识、编程
上一个宣称专精的已经变边角料了
--【柒】--:
(帖子已被作者删除)
--【捌】--:
这个是api,网页端thking进阶就是192,而且这版有个问题,就是简单开放问题回答的相当懈怠
--【玖】--: Chen9865:
5.5的数理能力宣传上可是明显高过5.2的
有没有一种可能,数理能力的宣传还有跑分之类的,用的是不降智的思考预算拉满的API端的5.5……
所以你觉得Web端的GPT 5.5的juice高,但是表现差,那确实是OAI降本增效,web端的模型表现比不上API端的,也比不上宣传的、送测的……很正常()
--【拾】--: GPT 5.5 / Pro 你这让我怎么相信你?16+2=24 你怎么敢说的?做这个题你还不如阉割版o3(只有网页版!)
放在5.2t或者别的ai都会纠正我然后给出我要的信息,5.4t真是烂完了不打对名字它连查都不会
我都是日常问题的,同感5.2t比5.4t强很多,5.5还没用过,现在只用grok heavy 了,感觉gpt现在新模型都是在codex上发力,其他人体验都不好。
--【拾壹】--: Wolke_Wolke:
GPT 5.5 Xhigh的juice是768,GPT 5.4 Xhigh的juice是512,难道就能说768 > 512,所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……
但是假设是Codex调用GPT 5.4 Xhigh,juice是512,GPT 5.4 High的juice是96,那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入
叠甲:用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同
5.5的数理能力宣传上可是明显高过5.2的,而且再怎么样也不能退步吧
5.5的xhigh难道能比5.4的xhigh差吗
(我用codex的场景比较初步,暂时没发现二者有能力的差距)
--【拾贰】--:
佬友跟我的使用体验一样,5.5出来的时候我还在想这速度怎么变得这么快?但是我用个两天发现,输出质量真一般,思维链砍短了。尤其是加上“尽可能详细些”,它能给你扩展到30多条内容,但是仔细看内容真的没眼看
--【拾叁】--:
5.2的思考倒是一直给的挺足的。
或者是否有可能就是5.2更严谨)?
--【拾肆】--:
这里实际上比较复杂,首先,楼上说的不同模型不能横向比 Juice 是对的
然后我的实验和观点是
5.5 系列洞察力更强(token效率更高),但不喜欢想太多,我倾向于这是一种预期的策略,OAI大概的想法是:
OK,既然我的模型 token efficiency 高,那我就尽量不要让他想那么多(因为这就是我提高 token efficiency 的原因)。也有不少证据表明对于大部分问题 thinking token 有边际效应,也就是刚开始 reasoning token 比较少的时候去增加是能大幅提升能力的,已经想了很多的情况下,继续加,未必能解决问题,既然如此我不如引导模型不要想这么多
这套想法在绝大多数场景下是没有任何问题的,而且用户体验好了不只一点,但在一些edge cases上就是会有问题,比如24点,他就是不愿意去穷举,所以在这个问题上甚至比不过狂想的deepseek之流。
我也有一个积分题,其中一个代换是要有点穷举的,5.5xhigh想了一会就会说没有闭式解,但实际上是有的,deepseek都能穷举出来。但是也不得不承认对大部分日常数理问题他就是又快又好,正文首字现在甚至能干掉以快著称的Gemini,同时对绝大多数问题仍然很好
总的来说我觉得还是一种 trade-off 把,对最顶尖的那些power user可能是会有影响,但对大部分人来说这似乎是值得的. 希望后续版本能够改进这一点
--【拾伍】--: Chen9865:
我在5.4时代就发现,5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192,我用prompt测试回答的也是192。
模型代际之间比较juice number的绝对值的参考意义比不上模型同一代之间比较juice number的绝对值吧……
比如同样是Codex调用,GPT 5.5 Xhigh的juice是768,GPT 5.4 Xhigh的juice是512,难道就能说768 > 512,所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……
但是假设是Codex调用GPT 5.4 Xhigh,juice是512,GPT 5.4 High的juice是96,那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入
叠甲:用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同
--【拾陆】--:
我用的网页端。我不认为codex在解题上有什么用
作为一个在读博士,我经常会思考和询问复杂的数理问题。我在5.4时代就发现,5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192,我用prompt测试回答的也是192。但它真有这么聪明吗?
我询问5.5和5.2相同的问题,一个我非常确定thinking的一条回答解决不了的问题。
image1353×383 10.5 KB
image1073×587 15.5 KB
可以很直接地看出,回答的时间和思维链长度有极其明显的差别。
不仅如此,5.5的回答可以说毫无质量可言,基本上相当于对目前的研究进展做了个综述。
这点,gemini的回答也印证了我的判断
image975×622 68.4 KB
可以看出,OAI为了降本增效脸都不要了。我倒宁愿它能给少一点用量,但要保证回答的质量。
网友解答:--【壹】--:
非常认可,之前用网页版来辅助写论文非常好用,现在的5.5虽然回答得快且说人话了,但质量下降太多了
--【贰】--:
我也是这个感觉,讨厌死了,做文字多步推理他是一点都不思考,秒拉屎,一大坨。就给出那种类似综述,简单介绍一下是怎么样太表层了。想做指令约束回答也很难,写好的约束给Claude执行效果巨好,给GPT让我有一种想扔垃圾桶再也不想用的感觉。从GPT5.3开始我就很难受了,GPT5.2是可以的,Pro模型还行,可能这就是实打实算力的感觉吧。后面直接用claude了…
--【叁】--:
codex就是写代码专用,解题很依赖网络搜索跟多步推理,这方面app/网页端做的好多了
--【肆】--:
要不你先怀疑一下你的渠道?还是你没开xhigh?
没注意到是网页端 不太了解 抱歉了
PixPin2026-04-2823-48-131409×418 26.9 KB
PixPin2026-04-2823-49-071375×403 26.6 KB
--【伍】--:
如果人家一直都在用网页端,那么人家说的就没有问题
--【陆】--:
Juice 不等价智商,只代表思考预算占比
只是有些人喜欢拿它来看降智而已
然后现在哪有模型在钻研数理问题
都在搞代理、世界知识、编程
上一个宣称专精的已经变边角料了
--【柒】--:
(帖子已被作者删除)
--【捌】--:
这个是api,网页端thking进阶就是192,而且这版有个问题,就是简单开放问题回答的相当懈怠
--【玖】--: Chen9865:
5.5的数理能力宣传上可是明显高过5.2的
有没有一种可能,数理能力的宣传还有跑分之类的,用的是不降智的思考预算拉满的API端的5.5……
所以你觉得Web端的GPT 5.5的juice高,但是表现差,那确实是OAI降本增效,web端的模型表现比不上API端的,也比不上宣传的、送测的……很正常()
--【拾】--: GPT 5.5 / Pro 你这让我怎么相信你?16+2=24 你怎么敢说的?做这个题你还不如阉割版o3(只有网页版!)
放在5.2t或者别的ai都会纠正我然后给出我要的信息,5.4t真是烂完了不打对名字它连查都不会
我都是日常问题的,同感5.2t比5.4t强很多,5.5还没用过,现在只用grok heavy 了,感觉gpt现在新模型都是在codex上发力,其他人体验都不好。
--【拾壹】--: Wolke_Wolke:
GPT 5.5 Xhigh的juice是768,GPT 5.4 Xhigh的juice是512,难道就能说768 > 512,所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……
但是假设是Codex调用GPT 5.4 Xhigh,juice是512,GPT 5.4 High的juice是96,那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入
叠甲:用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同
5.5的数理能力宣传上可是明显高过5.2的,而且再怎么样也不能退步吧
5.5的xhigh难道能比5.4的xhigh差吗
(我用codex的场景比较初步,暂时没发现二者有能力的差距)
--【拾贰】--:
佬友跟我的使用体验一样,5.5出来的时候我还在想这速度怎么变得这么快?但是我用个两天发现,输出质量真一般,思维链砍短了。尤其是加上“尽可能详细些”,它能给你扩展到30多条内容,但是仔细看内容真的没眼看
--【拾叁】--:
5.2的思考倒是一直给的挺足的。
或者是否有可能就是5.2更严谨)?
--【拾肆】--:
这里实际上比较复杂,首先,楼上说的不同模型不能横向比 Juice 是对的
然后我的实验和观点是
5.5 系列洞察力更强(token效率更高),但不喜欢想太多,我倾向于这是一种预期的策略,OAI大概的想法是:
OK,既然我的模型 token efficiency 高,那我就尽量不要让他想那么多(因为这就是我提高 token efficiency 的原因)。也有不少证据表明对于大部分问题 thinking token 有边际效应,也就是刚开始 reasoning token 比较少的时候去增加是能大幅提升能力的,已经想了很多的情况下,继续加,未必能解决问题,既然如此我不如引导模型不要想这么多
这套想法在绝大多数场景下是没有任何问题的,而且用户体验好了不只一点,但在一些edge cases上就是会有问题,比如24点,他就是不愿意去穷举,所以在这个问题上甚至比不过狂想的deepseek之流。
我也有一个积分题,其中一个代换是要有点穷举的,5.5xhigh想了一会就会说没有闭式解,但实际上是有的,deepseek都能穷举出来。但是也不得不承认对大部分日常数理问题他就是又快又好,正文首字现在甚至能干掉以快著称的Gemini,同时对绝大多数问题仍然很好
总的来说我觉得还是一种 trade-off 把,对最顶尖的那些power user可能是会有影响,但对大部分人来说这似乎是值得的. 希望后续版本能够改进这一点
--【拾伍】--: Chen9865:
我在5.4时代就发现,5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192,我用prompt测试回答的也是192。
模型代际之间比较juice number的绝对值的参考意义比不上模型同一代之间比较juice number的绝对值吧……
比如同样是Codex调用,GPT 5.5 Xhigh的juice是768,GPT 5.4 Xhigh的juice是512,难道就能说768 > 512,所以GPT 5.5 Xhigh的思考一定比GPT 5.4 Xhigh深入吗……
但是假设是Codex调用GPT 5.4 Xhigh,juice是512,GPT 5.4 High的juice是96,那我至少可以说GPT 5.4 Xhigh的思考会比GPT 5.4 High深入
叠甲:用codex渠道单纯只是举例……API渠道还有web渠道的juice number各有不同
--【拾陆】--:
我用的网页端。我不认为codex在解题上有什么用

