网页端 Gemini Deepthink 对比 GPT 5.4 thinking 不严谨测试
- 内容介绍
- 文章标签
- 相关推荐
TLDR
Gemini Deep think 模式的输出时间和详细程度和 GPT 5.4 thinking (Standard) 差距较小, GPT 略优.
大部分时候, 两者结合对比使用会更好, 因为默认倾向不同. 对于某些现成方案很少或者几乎没有的问题 (比如针对特定硬件配置开发环境), 两者大概率会给出不同的方案:
- GPT 默认情况下更求稳, 以官方文档为准. 如果官方文档没有明确记录或者已经说不支持的情况, 那它大概率会告诉你你此路不通.
- Gemini Deep think 默认情况下则更倾向于探索, 不会被官方文档局限. 在官方文档比较模糊或者明确记录不支持的情况下, 它还是会尝试去社区找一些 workaround.
- 另外, 两者似乎都更擅长 Linux 下的问题. 对 Windows 端的问题有些水土不服, debug 的对话轮次明显更多.
对比总结
Gemini Deep think 模式 (Gemini Ultra 订阅)
优势:
-
和用户探讨方案时, 默认提示词情况下的探索意愿更强, 不会被官方文档限制. 会参考社区方案, 尝试官方文档不支持的 workaround. 有些时候确实 hack 的方式更好 (例如改显卡注册表, 刷出某些官方文档不支持的功能)
特别注意, 尝试高危操作前先做好备份工作.
-
和自家的生成图片/视频功能结合得比较好, 不过我很少用到.
劣势:
-
最大的劣势是不能和 Gemini 3.1 Pro 在同一个对话交替使用.
如果你正在用 3.1 Pro 对话, 想要开 deepthink 模式就得切换到新的对话.
如果你在当前对话使用 deepthink 模式, 如果当天额度用完了, 就无法使用 3.1 Pro 继续对话, 同样也只能新开一个对话. 虽说可以开 Personal Intelligence 功能, 但同步之前对话内容还是比较麻烦.
deepthink903×409 18.2 KB
-
对比廉价的 ChatGPT Team, Gemini Deepthink 每天只能用十几条.
-
不是增量式输出, 用户要等待生成工作完全结束后才能看到结果.
GPT 5.4 thinking (Team 订阅)
优势:
-
目前有廉价获取 Team 订阅的渠道, 相当于无限用
-
可以在同一个对话中和 GPT 5.4 Pro 交替使用, 这是它显著强于 Gemini Deep think 模式的点.
我通常是和 GPT 5.4 thinking 先讨论几轮, 等问题清晰之后让 GPT 5.4 Pro 开 Extended 模式查漏补缺, 给出最详细的分析报告.
-
增量式输出, 体验更好. 用户可以在生成工作没有执行完毕时就阅读开头部分, 提早评估输出内容.
-
可以选择 Extended 模式以获取更详细的输出
劣势:
- (或者说倾向) 默认提示词情况下的探索意愿不强, 大部分时候追求稳定. 如果当前最佳实践违反官方文档, 它有很大概率不会向你推荐这个方法.
具体测试
测试场景 1 (生成回答的速度和模式对比):
给它一个 130KB 大小的方案探讨的 AI 对话历史文件, 让他分析整个对话, 然后参考网上的官方文档和最佳实践, 给出一个最佳的方案
Gemini Deepthink 一般要等待 3-5 分钟后直接展示完整结果, 不是逐行增量式回复.
GPT 5.4 thinking (standard) 一般是等待 1 分多钟然后逐字逐行增量式展示结论, 对用户比较友好. 总的生成时间比 Gemini deepthink 模式要快 15-30 秒左右, 而且方案更加详细 (更详细不一定代表更正确).
测试场景 2 (推荐方案的倾向对比):
给出具体的软硬件配置, 让 AI 给出开发环境配置的方案, 并在后续的搭建过程中接收用户反馈, 修正方案. 整个过程大概有20-30轮对话.
Gemini deepthink 模式和 GPT 5.4 thinking 有着非常不同的回答倾向
GPT 5.4 thinking 和 GPT 5.4 Pro 直接说显卡不在官方功能支持列表中, 让我放弃方案.
Gemini deepthink 说可以尝试社区方案(改显卡注册表), 并让我先做好备份.
然后我把 GPT 和 Gemini 的结论给对方评估, 他们都坚持自己的意见. GPT 说 Gemini 的方案不稳定, Gemini 说 GPT 受官方文档局限.
网友解答:--【壹】--:
我只试过算法题, 表现还可以的. 我不是数学系的, 所以给他的题可能没有参考意义, 对这两个模型来说难度应该不够.
但谷歌这个 deepthink 麻烦的点在于一天只有十几次对话机会, 而且同一个会话里, 选了 deepthink, 就不能用 Pro. 当你需要追问其中某个点并提问的时候, 十几次对话就不太够了. 这时候只能新开一个窗口, 手动导入上下文然后用 Pro. GPT 就没这个问题, thinking 和 Pro 可以在同一个会话中交替用.
--【贰】--:
我这两天实测 deepthink 是完全比不了 GPT 5.4 Pro, 基本上和 GPT 5.4 thinking 一档. 估计和我的测试场景有关, 我主要拿它来做软件项目选型分析和解决开发环境配置问题.
换其他 Gemini 擅长的领域, 测试结果可能不同.
--【叁】--:
基于我的使用场景, Gemini deepthink 的主要优势是默认情况下它会尝试新思路, 不像 GPT 那么求稳. 如果官方文档说这个显卡不支持 XX 功能, GPT 为了稳定肯定说此路不通. 但 deepthink 就说可以尝试改注册表. 除此之外我感觉 GPT 全面占优, 连价格都占优(廉价 Team 订阅 VS Gemini Ultra 订阅)
Gemini 相对 GPT 的主要优势应该还是在图片和视频内容创作上.
--【肆】--:
Gemini 3.1 Pro 在数学和算法上的实力就对标乃至超越 GPT Pro 了。甚至不需要 deepthink
--【伍】--:
这是真的吗,我的Gemini 3.1 pro咋输出比gpt 5.4 thinking少很多,是降智了吗
--【陆】--:
感觉现在,Gemini3.1的幻觉率,要比ChatGPT 5.4高
--【柒】--:
可能需要做一些数理方面的测试,不过Google Ultra用deepthink好像也限次数,相比之下chatgpt的pro订阅几乎无限次用5.4pro,感觉deepthink好像没啥优势了
--【捌】--:
这个无解,全看谷歌服务器心情,完全不可控。ChatGPT 的服务质量比 Gemini 要稳定一些。
--【玖】--:
说的是网页版吗,网页版gemini确实疲软,不过chatgpt需要提防降智,否则gpt5.4变成4omini
--【拾】--:
佬友有试过数学题吗?Google一直吹它的deepthink做数学题很厉害,我挺想知道它和 gpt-5.4 pro 孰强孰弱。
--【拾壹】--:
这两就不是一个档的吧.. deepthink对标的是pro啊
--【拾贰】--:
实测对标不了一点, 5.4 Pro 和 deepthink 完全不是一个档次. Gemini deepthink 最好情况也就是在 GPT thinking 的 Standard 和 Extended 之间浮动.
非要说的话可能 5.4 Pro 动辄一个小时的思考时间确实有点过长了.
--【拾叁】--:
team只要用个纯净度好的节点且不频繁IP满世界跑,都可以不降智
plus我没用过不降智的,pro的话得家宽养号
--【拾肆】--:
deepthink应该对标gpt pro呀
--【拾伍】--:
一般来说 IP 不频繁变动就不会降智,我只用美西节点和东京节点。
GPT 网页版 Pro 的降智很明显,从思考时间就能看出来,那种十来分钟就出结果的基本上是降智了。
TLDR
Gemini Deep think 模式的输出时间和详细程度和 GPT 5.4 thinking (Standard) 差距较小, GPT 略优.
大部分时候, 两者结合对比使用会更好, 因为默认倾向不同. 对于某些现成方案很少或者几乎没有的问题 (比如针对特定硬件配置开发环境), 两者大概率会给出不同的方案:
- GPT 默认情况下更求稳, 以官方文档为准. 如果官方文档没有明确记录或者已经说不支持的情况, 那它大概率会告诉你你此路不通.
- Gemini Deep think 默认情况下则更倾向于探索, 不会被官方文档局限. 在官方文档比较模糊或者明确记录不支持的情况下, 它还是会尝试去社区找一些 workaround.
- 另外, 两者似乎都更擅长 Linux 下的问题. 对 Windows 端的问题有些水土不服, debug 的对话轮次明显更多.
对比总结
Gemini Deep think 模式 (Gemini Ultra 订阅)
优势:
-
和用户探讨方案时, 默认提示词情况下的探索意愿更强, 不会被官方文档限制. 会参考社区方案, 尝试官方文档不支持的 workaround. 有些时候确实 hack 的方式更好 (例如改显卡注册表, 刷出某些官方文档不支持的功能)
特别注意, 尝试高危操作前先做好备份工作.
-
和自家的生成图片/视频功能结合得比较好, 不过我很少用到.
劣势:
-
最大的劣势是不能和 Gemini 3.1 Pro 在同一个对话交替使用.
如果你正在用 3.1 Pro 对话, 想要开 deepthink 模式就得切换到新的对话.
如果你在当前对话使用 deepthink 模式, 如果当天额度用完了, 就无法使用 3.1 Pro 继续对话, 同样也只能新开一个对话. 虽说可以开 Personal Intelligence 功能, 但同步之前对话内容还是比较麻烦.
deepthink903×409 18.2 KB
-
对比廉价的 ChatGPT Team, Gemini Deepthink 每天只能用十几条.
-
不是增量式输出, 用户要等待生成工作完全结束后才能看到结果.
GPT 5.4 thinking (Team 订阅)
优势:
-
目前有廉价获取 Team 订阅的渠道, 相当于无限用
-
可以在同一个对话中和 GPT 5.4 Pro 交替使用, 这是它显著强于 Gemini Deep think 模式的点.
我通常是和 GPT 5.4 thinking 先讨论几轮, 等问题清晰之后让 GPT 5.4 Pro 开 Extended 模式查漏补缺, 给出最详细的分析报告.
-
增量式输出, 体验更好. 用户可以在生成工作没有执行完毕时就阅读开头部分, 提早评估输出内容.
-
可以选择 Extended 模式以获取更详细的输出
劣势:
- (或者说倾向) 默认提示词情况下的探索意愿不强, 大部分时候追求稳定. 如果当前最佳实践违反官方文档, 它有很大概率不会向你推荐这个方法.
具体测试
测试场景 1 (生成回答的速度和模式对比):
给它一个 130KB 大小的方案探讨的 AI 对话历史文件, 让他分析整个对话, 然后参考网上的官方文档和最佳实践, 给出一个最佳的方案
Gemini Deepthink 一般要等待 3-5 分钟后直接展示完整结果, 不是逐行增量式回复.
GPT 5.4 thinking (standard) 一般是等待 1 分多钟然后逐字逐行增量式展示结论, 对用户比较友好. 总的生成时间比 Gemini deepthink 模式要快 15-30 秒左右, 而且方案更加详细 (更详细不一定代表更正确).
测试场景 2 (推荐方案的倾向对比):
给出具体的软硬件配置, 让 AI 给出开发环境配置的方案, 并在后续的搭建过程中接收用户反馈, 修正方案. 整个过程大概有20-30轮对话.
Gemini deepthink 模式和 GPT 5.4 thinking 有着非常不同的回答倾向
GPT 5.4 thinking 和 GPT 5.4 Pro 直接说显卡不在官方功能支持列表中, 让我放弃方案.
Gemini deepthink 说可以尝试社区方案(改显卡注册表), 并让我先做好备份.
然后我把 GPT 和 Gemini 的结论给对方评估, 他们都坚持自己的意见. GPT 说 Gemini 的方案不稳定, Gemini 说 GPT 受官方文档局限.
网友解答:--【壹】--:
我只试过算法题, 表现还可以的. 我不是数学系的, 所以给他的题可能没有参考意义, 对这两个模型来说难度应该不够.
但谷歌这个 deepthink 麻烦的点在于一天只有十几次对话机会, 而且同一个会话里, 选了 deepthink, 就不能用 Pro. 当你需要追问其中某个点并提问的时候, 十几次对话就不太够了. 这时候只能新开一个窗口, 手动导入上下文然后用 Pro. GPT 就没这个问题, thinking 和 Pro 可以在同一个会话中交替用.
--【贰】--:
我这两天实测 deepthink 是完全比不了 GPT 5.4 Pro, 基本上和 GPT 5.4 thinking 一档. 估计和我的测试场景有关, 我主要拿它来做软件项目选型分析和解决开发环境配置问题.
换其他 Gemini 擅长的领域, 测试结果可能不同.
--【叁】--:
基于我的使用场景, Gemini deepthink 的主要优势是默认情况下它会尝试新思路, 不像 GPT 那么求稳. 如果官方文档说这个显卡不支持 XX 功能, GPT 为了稳定肯定说此路不通. 但 deepthink 就说可以尝试改注册表. 除此之外我感觉 GPT 全面占优, 连价格都占优(廉价 Team 订阅 VS Gemini Ultra 订阅)
Gemini 相对 GPT 的主要优势应该还是在图片和视频内容创作上.
--【肆】--:
Gemini 3.1 Pro 在数学和算法上的实力就对标乃至超越 GPT Pro 了。甚至不需要 deepthink
--【伍】--:
这是真的吗,我的Gemini 3.1 pro咋输出比gpt 5.4 thinking少很多,是降智了吗
--【陆】--:
感觉现在,Gemini3.1的幻觉率,要比ChatGPT 5.4高
--【柒】--:
可能需要做一些数理方面的测试,不过Google Ultra用deepthink好像也限次数,相比之下chatgpt的pro订阅几乎无限次用5.4pro,感觉deepthink好像没啥优势了
--【捌】--:
这个无解,全看谷歌服务器心情,完全不可控。ChatGPT 的服务质量比 Gemini 要稳定一些。
--【玖】--:
说的是网页版吗,网页版gemini确实疲软,不过chatgpt需要提防降智,否则gpt5.4变成4omini
--【拾】--:
佬友有试过数学题吗?Google一直吹它的deepthink做数学题很厉害,我挺想知道它和 gpt-5.4 pro 孰强孰弱。
--【拾壹】--:
这两就不是一个档的吧.. deepthink对标的是pro啊
--【拾贰】--:
实测对标不了一点, 5.4 Pro 和 deepthink 完全不是一个档次. Gemini deepthink 最好情况也就是在 GPT thinking 的 Standard 和 Extended 之间浮动.
非要说的话可能 5.4 Pro 动辄一个小时的思考时间确实有点过长了.
--【拾叁】--:
team只要用个纯净度好的节点且不频繁IP满世界跑,都可以不降智
plus我没用过不降智的,pro的话得家宽养号
--【拾肆】--:
deepthink应该对标gpt pro呀
--【拾伍】--:
一般来说 IP 不频繁变动就不会降智,我只用美西节点和东京节点。
GPT 网页版 Pro 的降智很明显,从思考时间就能看出来,那种十来分钟就出结果的基本上是降智了。

