gpt-5.3-codex优于gpt-5.4

2026-04-29 08:212阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

就下面的测试 gpt-5.3-codex耗时2分钟出21和29(为了避免题目中的歧义,它自作主张补充说明了什么情况下是29),gpt-5.4耗时5分钟得出21。A畜家的忠实粉可以测一测这个题。

在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)

苹果味 桃子味 西瓜味

圆形 7 9 8

五角星形 7 6 4

网友解答:
--【壹】--:

gpt-5.3-codex耗时2分钟、gpt-5.4耗时5分钟,是因为juice768和512的原因?


--【贰】--:

不要再用这种单次思考题判断AI能力了 AI的本质就是抽卡 你让5.4自己答10次也会得出5.4不如5.4的结论的 实在想测能力参考这个记一次对 Claude Opus 4.7 的真实项目需求的横向评测(T3 榜迎来了它可能是最严厉的父亲)


--【叁】--:

大概率是,5.4真的德不配位,消耗又高,实力又没有跟5.3拉开差距。真是个尴尬的模型呢。


--【肆】--:

5.2-codex不给用了,不然都直接用5.2-codex。5.4能用,就是定位太尴尬了。


--【伍】--:

话说不应该讨论5.5吗?怎么最近总有给我穿越了的感觉的帖子


--【陆】--:

5.4 疯狂做兜底之后,发现21是对的


--【柒】--:

5.4发布时宣传的是完成同样质量的任务所消耗的token数更少。


--【捌】--:

真的吗佬 平时用的5.4比较多 没怎么用过5.3-codex 佬当前最推荐的就是5.3-codex吗


--【玖】--:

我个人用下来,写代码还是5.3codex稳一些,5.4有点太发散了


--【拾】--:

Scam Altman。5.4消耗是少了,但是字字黄金,单价太高了。

问题描述:

就下面的测试 gpt-5.3-codex耗时2分钟出21和29(为了避免题目中的歧义,它自作主张补充说明了什么情况下是29),gpt-5.4耗时5分钟得出21。A畜家的忠实粉可以测一测这个题。

在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)

苹果味 桃子味 西瓜味

圆形 7 9 8

五角星形 7 6 4

网友解答:
--【壹】--:

gpt-5.3-codex耗时2分钟、gpt-5.4耗时5分钟,是因为juice768和512的原因?


--【贰】--:

不要再用这种单次思考题判断AI能力了 AI的本质就是抽卡 你让5.4自己答10次也会得出5.4不如5.4的结论的 实在想测能力参考这个记一次对 Claude Opus 4.7 的真实项目需求的横向评测(T3 榜迎来了它可能是最严厉的父亲)


--【叁】--:

大概率是,5.4真的德不配位,消耗又高,实力又没有跟5.3拉开差距。真是个尴尬的模型呢。


--【肆】--:

5.2-codex不给用了,不然都直接用5.2-codex。5.4能用,就是定位太尴尬了。


--【伍】--:

话说不应该讨论5.5吗?怎么最近总有给我穿越了的感觉的帖子


--【陆】--:

5.4 疯狂做兜底之后,发现21是对的


--【柒】--:

5.4发布时宣传的是完成同样质量的任务所消耗的token数更少。


--【捌】--:

真的吗佬 平时用的5.4比较多 没怎么用过5.3-codex 佬当前最推荐的就是5.3-codex吗


--【玖】--:

我个人用下来,写代码还是5.3codex稳一些,5.4有点太发散了


--【拾】--:

Scam Altman。5.4消耗是少了,但是字字黄金,单价太高了。