gpt还是吊打其他模型

2026-04-29 09:322阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

有时候逛论坛看到各种模型发布了,就看各种测评网站,久而久之其实也不太信这些网站,因为很难说清楚这些网站有没有收钱,或者是模型有没有过拟合数据集。

今天刚好送老婆坐飞机出国,但是刚刚看飞机的位置发现在缅甸和云南的交界,和航旅纵横、飞常准的路线图不一样(预计的路线是走中国西北),心中有些害怕就查了一下历史路线图。发现有两条路线,可能会根据各种原因进行切换。

我就拿这个问题问了一下gpt、grok、gemini。

问题

aaa - bbb(机场代码),某某航空的飞机,我看飞行历史记录大概有两条飞行线路,请你看一下这两条线路是什么,具体经过哪里,那个国家?然后告诉我26年4月25号从aaa起飞的航班走的是哪条?

结果

我分别问了两次,只有gpt 5.5 thinking的其中一次回答,能够正确推断出路线并推断出当前航线走的是哪条。

只能说gpt真牛逼,而且我有点对grok无语了,一直以来我觉得 Gork 的搜索非常好用,但是最近我发现我把文档网址给他,他也会胡编乱造一些信息给我,我在自定义里面明确要求了必须验证信息真实性,真是没招了

网友解答:
--【壹】--:

Screenshot_2026-04-25-13-29-21-85_96b26121e545231a3c569311a54cda961080×2374 255 KB
思考5分钟还差一个,还说无解,就是不愿意想


--【贰】--:

能用工具肯定让他用,就像你遇到问题能用gpt肯定用,用工具的能力也是智商的一种,除了不能直接搜索答案都可以做才能体现智力


--【叁】--:

我刚才开我的Pro号和API测隔壁的问题 (2578不用工具),

结果网页端的5.5 Extended Pro也Fail了,无解,

(更正,问完被GPT官方风控了)

image871×327 5.55 KB

5.4 Pro API端是对的,没有问题


--【肆】--:

网页版gemini都能做出来,deepseek v4pro max也能写。这个不难,单纯费思考时间


--【伍】--:

我的还好耶,这个问题问了两次都是思考了的,第一次32s,第二次50s,可能是因为我买了一个日本的伪家宽?


--【陆】--:

我也感觉grok越来越泯了哈哈哈哈 经常乱编


--【柒】--:

我来了正好在看这贴
隔壁的差距在这没法复现了。也许是因为这里的问题看起来更复杂,网页版思考时间不比 API 少了。结果也都和上面一样,差第 9 个。
目前的推测是网页版面对简单问题更容易偷懒。可能只是提示词工程,不是能力上限有差距。
另外网页版 Extended Pro 禁止调用工具也全解出来了:
Screenshot20260426043855Chrome Beta1440×2853 314 KB


--【捌】--:

image947×937 22.8 KB

用了Python工具,LLM算数学还是太难了


--【玖】--:

13秒肯定是调用工具算的,如果不调用工具算不出来

这里一共有20组,靠模型自己穷举13秒怎么可能够


--【拾】--:

复杂的问题对gpt5.5是有优势的,因为他聪明,而且复杂的问题是循序渐进的,24点只能穷举

这和调用工具有什么关系?24点有困难到必须调用工具才能解决吗?这只是为了测试他的思考预算,而且他直接说的无解,而不是没找到

而且我也不反对调用工具,但是在这个测试里调用工具13秒就能算出来,怎么测试思考预算?这些数组是gpt5.4pro找出来的,我取了末尾20个


--【拾壹】--:

我说他智力低了?我不是直接说的他智力高?智力再高不愿意思考迟早翻车


--【拾贰】--:

只能说他就是这么设计的,就像写代码先让他快速能跑起来,然后有bug再修,xhigh的思考强度也不能保证完全没有bug


--【拾叁】--:

但是gpt不愿意思考,即使是codex里的也一样。我用24点测试的时候,有大概一半他都找不到怎么解,但是24点并不是什么很有难度的东西,单纯是他思考到一半就放弃了。


--【拾肆】--:

Screenshot_2026-04-25-12-35-10-48_96b26121e545231a3c569311a54cda96262×993 125 KB

你可以让他试试用这些算24点,codex的5.5xhigh都没办法一次性给出所有解,deepseek v4pro max思考了大约40分钟给出了所有解,gpt5.5数学能力按理不应该比deepseek差,而且24点也不难。他写不出来只是因为对于比较难算的那几个尝试的次数不够,这点在网页里尤其明显,几乎就是敷衍一下就说没有解。

说找不到就算了,但是他直接给出无解的结论,这具有误导性,实际上这些都有解。

gpt的智力的确高,但是对于24点这种智力高不一定能明显提升速度的问题,他不愿意思考的弊端会被明显放大


--【拾伍】--:

image1021×165 31.4 KB

隔壁的,学术问题还是得API端,网页端感觉都不靠谱


--【拾陆】--:

确实,如果我明确跟他说禁止工具调用的话,他思考不出来
但我觉得还好耶,因为这并不能代表gpt面对复杂工程的时候也会不思考,可能仅针对这种多个重复的数学题,其实写一个工具作为通用解法在他看来是较优解?而继续进行大量思考无意义。

如果以gpt调用工具是基础的话,那么是否应该以一个可以用多种工具联合调用才能完成的任务作为目标,但他没有完成,才能说明他无法思考呢?


--【拾柒】--:

GPT随机降智严重,首先得讲究家宽,Codex/API端又比官网稳定,

官网问问题(除了满血Extended Pro)是不能当生产力工具的


--【拾捌】--:

image1618×1404 225 KB
你看看?


--【拾玖】--:

Grok是这样的,但是你要问道德底线比较低的问题,它又突然好用了

所以各有优缺,像我现在主用Grok,感觉有问题问Claude,还是有问题问GPT

标签:人工智能
问题描述:

有时候逛论坛看到各种模型发布了,就看各种测评网站,久而久之其实也不太信这些网站,因为很难说清楚这些网站有没有收钱,或者是模型有没有过拟合数据集。

今天刚好送老婆坐飞机出国,但是刚刚看飞机的位置发现在缅甸和云南的交界,和航旅纵横、飞常准的路线图不一样(预计的路线是走中国西北),心中有些害怕就查了一下历史路线图。发现有两条路线,可能会根据各种原因进行切换。

我就拿这个问题问了一下gpt、grok、gemini。

问题

aaa - bbb(机场代码),某某航空的飞机,我看飞行历史记录大概有两条飞行线路,请你看一下这两条线路是什么,具体经过哪里,那个国家?然后告诉我26年4月25号从aaa起飞的航班走的是哪条?

结果

我分别问了两次,只有gpt 5.5 thinking的其中一次回答,能够正确推断出路线并推断出当前航线走的是哪条。

只能说gpt真牛逼,而且我有点对grok无语了,一直以来我觉得 Gork 的搜索非常好用,但是最近我发现我把文档网址给他,他也会胡编乱造一些信息给我,我在自定义里面明确要求了必须验证信息真实性,真是没招了

网友解答:
--【壹】--:

Screenshot_2026-04-25-13-29-21-85_96b26121e545231a3c569311a54cda961080×2374 255 KB
思考5分钟还差一个,还说无解,就是不愿意想


--【贰】--:

能用工具肯定让他用,就像你遇到问题能用gpt肯定用,用工具的能力也是智商的一种,除了不能直接搜索答案都可以做才能体现智力


--【叁】--:

我刚才开我的Pro号和API测隔壁的问题 (2578不用工具),

结果网页端的5.5 Extended Pro也Fail了,无解,

(更正,问完被GPT官方风控了)

image871×327 5.55 KB

5.4 Pro API端是对的,没有问题


--【肆】--:

网页版gemini都能做出来,deepseek v4pro max也能写。这个不难,单纯费思考时间


--【伍】--:

我的还好耶,这个问题问了两次都是思考了的,第一次32s,第二次50s,可能是因为我买了一个日本的伪家宽?


--【陆】--:

我也感觉grok越来越泯了哈哈哈哈 经常乱编


--【柒】--:

我来了正好在看这贴
隔壁的差距在这没法复现了。也许是因为这里的问题看起来更复杂,网页版思考时间不比 API 少了。结果也都和上面一样,差第 9 个。
目前的推测是网页版面对简单问题更容易偷懒。可能只是提示词工程,不是能力上限有差距。
另外网页版 Extended Pro 禁止调用工具也全解出来了:
Screenshot20260426043855Chrome Beta1440×2853 314 KB


--【捌】--:

image947×937 22.8 KB

用了Python工具,LLM算数学还是太难了


--【玖】--:

13秒肯定是调用工具算的,如果不调用工具算不出来

这里一共有20组,靠模型自己穷举13秒怎么可能够


--【拾】--:

复杂的问题对gpt5.5是有优势的,因为他聪明,而且复杂的问题是循序渐进的,24点只能穷举

这和调用工具有什么关系?24点有困难到必须调用工具才能解决吗?这只是为了测试他的思考预算,而且他直接说的无解,而不是没找到

而且我也不反对调用工具,但是在这个测试里调用工具13秒就能算出来,怎么测试思考预算?这些数组是gpt5.4pro找出来的,我取了末尾20个


--【拾壹】--:

我说他智力低了?我不是直接说的他智力高?智力再高不愿意思考迟早翻车


--【拾贰】--:

只能说他就是这么设计的,就像写代码先让他快速能跑起来,然后有bug再修,xhigh的思考强度也不能保证完全没有bug


--【拾叁】--:

但是gpt不愿意思考,即使是codex里的也一样。我用24点测试的时候,有大概一半他都找不到怎么解,但是24点并不是什么很有难度的东西,单纯是他思考到一半就放弃了。


--【拾肆】--:

Screenshot_2026-04-25-12-35-10-48_96b26121e545231a3c569311a54cda96262×993 125 KB

你可以让他试试用这些算24点,codex的5.5xhigh都没办法一次性给出所有解,deepseek v4pro max思考了大约40分钟给出了所有解,gpt5.5数学能力按理不应该比deepseek差,而且24点也不难。他写不出来只是因为对于比较难算的那几个尝试的次数不够,这点在网页里尤其明显,几乎就是敷衍一下就说没有解。

说找不到就算了,但是他直接给出无解的结论,这具有误导性,实际上这些都有解。

gpt的智力的确高,但是对于24点这种智力高不一定能明显提升速度的问题,他不愿意思考的弊端会被明显放大


--【拾伍】--:

image1021×165 31.4 KB

隔壁的,学术问题还是得API端,网页端感觉都不靠谱


--【拾陆】--:

确实,如果我明确跟他说禁止工具调用的话,他思考不出来
但我觉得还好耶,因为这并不能代表gpt面对复杂工程的时候也会不思考,可能仅针对这种多个重复的数学题,其实写一个工具作为通用解法在他看来是较优解?而继续进行大量思考无意义。

如果以gpt调用工具是基础的话,那么是否应该以一个可以用多种工具联合调用才能完成的任务作为目标,但他没有完成,才能说明他无法思考呢?


--【拾柒】--:

GPT随机降智严重,首先得讲究家宽,Codex/API端又比官网稳定,

官网问问题(除了满血Extended Pro)是不能当生产力工具的


--【拾捌】--:

image1618×1404 225 KB
你看看?


--【拾玖】--:

Grok是这样的,但是你要问道德底线比较低的问题,它又突然好用了

所以各有优缺,像我现在主用Grok,感觉有问题问Claude,还是有问题问GPT

标签:人工智能