网页端 Gemini Deepthink 对比 GPT 5.4 thinking 不严谨测试

2026-04-11 11:321阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

TLDR

Gemini Deep think 模式的输出时间和详细程度和 GPT 5.4 thinking (Standard) 差距较小, GPT 略优.

大部分时候, 两者结合对比使用会更好, 因为默认倾向不同. 对于某些现成方案很少或者几乎没有的问题 (比如针对特定硬件配置开发环境), 两者大概率会给出不同的方案:

GPT 默认情况下更求稳, 以官方文档为准. 如果官方文档没有明确记录或者已经说不支持的情况, 那它大概率会告诉你你此路不通.
Gemini Deep think 默认情况下则更倾向于探索, 不会被官方文档局限. 在官方文档比较模糊或者明确记录不支持的情况下, 它还是会尝试去社区找一些 workaround.
另外, 两者似乎都更擅长 Linux 下的问题. 对 Windows 端的问题有些水土不服, debug 的对话轮次明显更多.

对比总结

Gemini Deep think 模式 (Gemini Ultra 订阅)

优势:

和用户探讨方案时, 默认提示词情况下的探索意愿更强, 不会被官方文档限制. 会参考社区方案, 尝试官方文档不支持的 workaround. 有些时候确实 hack 的方式更好 (例如改显卡注册表, 刷出某些官方文档不支持的功能)

特别注意, 尝试高危操作前先做好备份工作.
和自家的生成图片/视频功能结合得比较好, 不过我很少用到.

劣势:

最大的劣势是不能和 Gemini 3.1 Pro 在同一个对话交替使用.

如果你正在用 3.1 Pro 对话, 想要开 deepthink 模式就得切换到新的对话.

如果你在当前对话使用 deepthink 模式, 如果当天额度用完了, 就无法使用 3.1 Pro 继续对话, 同样也只能新开一个对话. 虽说可以开 Personal Intelligence 功能, 但同步之前对话内容还是比较麻烦.

deepthink903×409 18.2 KB
对比廉价的 ChatGPT Team, Gemini Deepthink 每天只能用十几条.
不是增量式输出, 用户要等待生成工作完全结束后才能看到结果.

GPT 5.4 thinking (Team 订阅)

优势:

目前有廉价获取 Team 订阅的渠道, 相当于无限用
可以在同一个对话中和 GPT 5.4 Pro 交替使用, 这是它显著强于 Gemini Deep think 模式的点.

我通常是和 GPT 5.4 thinking 先讨论几轮, 等问题清晰之后让 GPT 5.4 Pro 开 Extended 模式查漏补缺, 给出最详细的分析报告.
增量式输出, 体验更好. 用户可以在生成工作没有执行完毕时就阅读开头部分, 提早评估输出内容.
可以选择 Extended 模式以获取更详细的输出

劣势:

(或者说倾向) 默认提示词情况下的探索意愿不强, 大部分时候追求稳定. 如果当前最佳实践违反官方文档, 它有很大概率不会向你推荐这个方法.

具体测试

测试场景 1 (生成回答的速度和模式对比):

给它一个 130KB 大小的方案探讨的 AI 对话历史文件, 让他分析整个对话, 然后参考网上的官方文档和最佳实践, 给出一个最佳的方案

Gemini Deepthink 一般要等待 3-5 分钟后直接展示完整结果, 不是逐行增量式回复.

GPT 5.4 thinking (standard) 一般是等待 1 分多钟然后逐字逐行增量式展示结论, 对用户比较友好. 总的生成时间比 Gemini deepthink 模式要快 15-30 秒左右, 而且方案更加详细 (更详细不一定代表更正确).

测试场景 2 (推荐方案的倾向对比):

给出具体的软硬件配置, 让 AI 给出开发环境配置的方案, 并在后续的搭建过程中接收用户反馈, 修正方案. 整个过程大概有20-30轮对话.

Gemini deepthink 模式和 GPT 5.4 thinking 有着非常不同的回答倾向

GPT 5.4 thinking 和 GPT 5.4 Pro 直接说显卡不在官方功能支持列表中, 让我放弃方案.

Gemini deepthink 说可以尝试社区方案(改显卡注册表), 并让我先做好备份.

然后我把 GPT 和 Gemini 的结论给对方评估, 他们都坚持自己的意见. GPT 说 Gemini 的方案不稳定, Gemini 说 GPT 受官方文档局限.

网友解答：

--【壹】--：

我只试过算法题, 表现还可以的. 我不是数学系的, 所以给他的题可能没有参考意义, 对这两个模型来说难度应该不够.

但谷歌这个 deepthink 麻烦的点在于一天只有十几次对话机会, 而且同一个会话里, 选了 deepthink, 就不能用 Pro. 当你需要追问其中某个点并提问的时候, 十几次对话就不太够了. 这时候只能新开一个窗口, 手动导入上下文然后用 Pro. GPT 就没这个问题, thinking 和 Pro 可以在同一个会话中交替用.

--【贰】--：

我这两天实测 deepthink 是完全比不了 GPT 5.4 Pro, 基本上和 GPT 5.4 thinking 一档. 估计和我的测试场景有关, 我主要拿它来做软件项目选型分析和解决开发环境配置问题.

换其他 Gemini 擅长的领域, 测试结果可能不同.

--【叁】--：

基于我的使用场景, Gemini deepthink 的主要优势是默认情况下它会尝试新思路, 不像 GPT 那么求稳. 如果官方文档说这个显卡不支持 XX 功能, GPT 为了稳定肯定说此路不通. 但 deepthink 就说可以尝试改注册表. 除此之外我感觉 GPT 全面占优, 连价格都占优(廉价 Team 订阅 VS Gemini Ultra 订阅)

Gemini 相对 GPT 的主要优势应该还是在图片和视频内容创作上.

--【肆】--：

Gemini 3.1 Pro 在数学和算法上的实力就对标乃至超越 GPT Pro 了。甚至不需要 deepthink

--【伍】--：

这是真的吗，我的Gemini 3.1 pro咋输出比gpt 5.4 thinking少很多，是降智了吗

--【陆】--：

感觉现在，Gemini3.1的幻觉率，要比ChatGPT 5.4高

--【柒】--：

可能需要做一些数理方面的测试，不过Google Ultra用deepthink好像也限次数，相比之下chatgpt的pro订阅几乎无限次用5.4pro，感觉deepthink好像没啥优势了

--【捌】--：

这个无解，全看谷歌服务器心情，完全不可控。ChatGPT 的服务质量比 Gemini 要稳定一些。

--【玖】--：

说的是网页版吗，网页版gemini确实疲软，不过chatgpt需要提防降智，否则gpt5.4变成4omini

--【拾】--：

佬友有试过数学题吗？Google一直吹它的deepthink做数学题很厉害，我挺想知道它和 gpt-5.4 pro 孰强孰弱。

--【拾壹】--：

这两就不是一个档的吧.. deepthink对标的是pro啊

--【拾贰】--：

实测对标不了一点, 5.4 Pro 和 deepthink 完全不是一个档次. Gemini deepthink 最好情况也就是在 GPT thinking 的 Standard 和 Extended 之间浮动.

非要说的话可能 5.4 Pro 动辄一个小时的思考时间确实有点过长了.

--【拾叁】--：

team只要用个纯净度好的节点且不频繁IP满世界跑，都可以不降智
plus我没用过不降智的，pro的话得家宽养号

--【拾肆】--：

deepthink应该对标gpt pro呀

--【拾伍】--：

一般来说 IP 不频繁变动就不会降智，我只用美西节点和东京节点。

GPT 网页版 Pro 的降智很明显，从思考时间就能看出来，那种十来分钟就出结果的基本上是降智了。

标签：人工智能软件开发纯水

问题描述：

TLDR

Gemini Deep think 模式的输出时间和详细程度和 GPT 5.4 thinking (Standard) 差距较小, GPT 略优.

GPT 默认情况下更求稳, 以官方文档为准. 如果官方文档没有明确记录或者已经说不支持的情况, 那它大概率会告诉你你此路不通.
Gemini Deep think 默认情况下则更倾向于探索, 不会被官方文档局限. 在官方文档比较模糊或者明确记录不支持的情况下, 它还是会尝试去社区找一些 workaround.
另外, 两者似乎都更擅长 Linux 下的问题. 对 Windows 端的问题有些水土不服, debug 的对话轮次明显更多.

对比总结

Gemini Deep think 模式 (Gemini Ultra 订阅)

优势:

和用户探讨方案时, 默认提示词情况下的探索意愿更强, 不会被官方文档限制. 会参考社区方案, 尝试官方文档不支持的 workaround. 有些时候确实 hack 的方式更好 (例如改显卡注册表, 刷出某些官方文档不支持的功能)

特别注意, 尝试高危操作前先做好备份工作.
和自家的生成图片/视频功能结合得比较好, 不过我很少用到.

劣势:

最大的劣势是不能和 Gemini 3.1 Pro 在同一个对话交替使用.

如果你正在用 3.1 Pro 对话, 想要开 deepthink 模式就得切换到新的对话.

如果你在当前对话使用 deepthink 模式, 如果当天额度用完了, 就无法使用 3.1 Pro 继续对话, 同样也只能新开一个对话. 虽说可以开 Personal Intelligence 功能, 但同步之前对话内容还是比较麻烦.

deepthink903×409 18.2 KB
对比廉价的 ChatGPT Team, Gemini Deepthink 每天只能用十几条.
不是增量式输出, 用户要等待生成工作完全结束后才能看到结果.

GPT 5.4 thinking (Team 订阅)

优势:

目前有廉价获取 Team 订阅的渠道, 相当于无限用
可以在同一个对话中和 GPT 5.4 Pro 交替使用, 这是它显著强于 Gemini Deep think 模式的点.

我通常是和 GPT 5.4 thinking 先讨论几轮, 等问题清晰之后让 GPT 5.4 Pro 开 Extended 模式查漏补缺, 给出最详细的分析报告.
增量式输出, 体验更好. 用户可以在生成工作没有执行完毕时就阅读开头部分, 提早评估输出内容.
可以选择 Extended 模式以获取更详细的输出

劣势:

(或者说倾向) 默认提示词情况下的探索意愿不强, 大部分时候追求稳定. 如果当前最佳实践违反官方文档, 它有很大概率不会向你推荐这个方法.

具体测试

测试场景 1 (生成回答的速度和模式对比):

给它一个 130KB 大小的方案探讨的 AI 对话历史文件, 让他分析整个对话, 然后参考网上的官方文档和最佳实践, 给出一个最佳的方案

Gemini Deepthink 一般要等待 3-5 分钟后直接展示完整结果, 不是逐行增量式回复.

测试场景 2 (推荐方案的倾向对比):

给出具体的软硬件配置, 让 AI 给出开发环境配置的方案, 并在后续的搭建过程中接收用户反馈, 修正方案. 整个过程大概有20-30轮对话.

Gemini deepthink 模式和 GPT 5.4 thinking 有着非常不同的回答倾向

GPT 5.4 thinking 和 GPT 5.4 Pro 直接说显卡不在官方功能支持列表中, 让我放弃方案.

Gemini deepthink 说可以尝试社区方案(改显卡注册表), 并让我先做好备份.

然后我把 GPT 和 Gemini 的结论给对方评估, 他们都坚持自己的意见. GPT 说 Gemini 的方案不稳定, Gemini 说 GPT 受官方文档局限.

网友解答：

--【壹】--：

我只试过算法题, 表现还可以的. 我不是数学系的, 所以给他的题可能没有参考意义, 对这两个模型来说难度应该不够.

--【贰】--：

换其他 Gemini 擅长的领域, 测试结果可能不同.

--【叁】--：

Gemini 相对 GPT 的主要优势应该还是在图片和视频内容创作上.

--【肆】--：

Gemini 3.1 Pro 在数学和算法上的实力就对标乃至超越 GPT Pro 了。甚至不需要 deepthink

--【伍】--：

这是真的吗，我的Gemini 3.1 pro咋输出比gpt 5.4 thinking少很多，是降智了吗

--【陆】--：

感觉现在，Gemini3.1的幻觉率，要比ChatGPT 5.4高

--【柒】--：

可能需要做一些数理方面的测试，不过Google Ultra用deepthink好像也限次数，相比之下chatgpt的pro订阅几乎无限次用5.4pro，感觉deepthink好像没啥优势了

--【捌】--：

这个无解，全看谷歌服务器心情，完全不可控。ChatGPT 的服务质量比 Gemini 要稳定一些。

--【玖】--：

说的是网页版吗，网页版gemini确实疲软，不过chatgpt需要提防降智，否则gpt5.4变成4omini

--【拾】--：

佬友有试过数学题吗？Google一直吹它的deepthink做数学题很厉害，我挺想知道它和 gpt-5.4 pro 孰强孰弱。

--【拾壹】--：

这两就不是一个档的吧.. deepthink对标的是pro啊

--【拾贰】--：

实测对标不了一点, 5.4 Pro 和 deepthink 完全不是一个档次. Gemini deepthink 最好情况也就是在 GPT thinking 的 Standard 和 Extended 之间浮动.

非要说的话可能 5.4 Pro 动辄一个小时的思考时间确实有点过长了.

--【拾叁】--：

team只要用个纯净度好的节点且不频繁IP满世界跑，都可以不降智
plus我没用过不降智的，pro的话得家宽养号

--【拾肆】--：

deepthink应该对标gpt pro呀

--【拾伍】--：

一般来说 IP 不频繁变动就不会降智，我只用美西节点和东京节点。

GPT 网页版 Pro 的降智很明显，从思考时间就能看出来，那种十来分钟就出结果的基本上是降智了。

标签：人工智能软件开发纯水

TLDR

对比总结

Gemini Deep think 模式 (Gemini Ultra 订阅)

GPT 5.4 thinking (Team 订阅)

具体测试

测试场景 1 (生成回答的速度和模式对比):

测试场景 2 (推荐方案的倾向对比):

相关推荐

TLDR

对比总结

Gemini Deep think 模式 (Gemini Ultra 订阅)

GPT 5.4 thinking (Team 订阅)

具体测试

测试场景 1 (生成回答的速度和模式对比):

测试场景 2 (推荐方案的倾向对比):

相关推荐