AI review 到底靠不靠谱?
- 内容介绍
- 文章标签
- 相关推荐
在开始回答这个问题前,我们先来做一个实验。
以 GPT-5.4 Xhigh 为例,你只需要打开任意一个你当前的项目,开启计划模式,输入任意需求,等待他生成方案后实施方案,然后进入 AI review 审查阶段,此时新开一个会话,输入下面的提示词
我实施了以下计划:
```
XXX(这里放他生成的实施方案)
```
请你审查更改diff检查是否全部功能已实现,如果存在遗漏请帮我修复,如果全部已实现,请告知
第一次这么问,AI 大概率能找出一批遗漏并修复。
接下来继续新开一个会话,再把一样的提示词再喂进去,它又能继续找到新的遗漏并继续修。再开一次,还能继续找。这个过程只要你愿意将可以无限循环。
当然,上述情况不止是 GPT-5.4 Xhigh 会出现这样的问题,你换任意 AI 模型都会得到大差不差的结论。
OK,看到这里你现在脑子里念头更符合下面哪个结论?:
- AI 真强,可以永远不会疲倦的 review
- AI 不可靠,它根本什么都做不好
而我认为:
AI review 的确能发现问题,但它没有能力证明“问题已经被找完了”。
这不是某个模型、某个产品或者某个框架独有的毛病,而是当前大模型的底层缺陷。
一、从底层原理看:它为什么会这样
1. 大模型就是一个概率生成器
今天的大模型,其本质上是 “根据上下文预测下一个最可能 token” 。
在开始回答这个问题前,我们先来做一个实验。
以 GPT-5.4 Xhigh 为例,你只需要打开任意一个你当前的项目,开启计划模式,输入任意需求,等待他生成方案后实施方案,然后进入 AI review 审查阶段,此时新开一个会话,输入下面的提示词
我实施了以下计划:
```
XXX(这里放他生成的实施方案)
```
请你审查更改diff检查是否全部功能已实现,如果存在遗漏请帮我修复,如果全部已实现,请告知
第一次这么问,AI 大概率能找出一批遗漏并修复。
接下来继续新开一个会话,再把一样的提示词再喂进去,它又能继续找到新的遗漏并继续修。再开一次,还能继续找。这个过程只要你愿意将可以无限循环。
当然,上述情况不止是 GPT-5.4 Xhigh 会出现这样的问题,你换任意 AI 模型都会得到大差不差的结论。
OK,看到这里你现在脑子里念头更符合下面哪个结论?:
- AI 真强,可以永远不会疲倦的 review
- AI 不可靠,它根本什么都做不好
而我认为:
AI review 的确能发现问题,但它没有能力证明“问题已经被找完了”。
这不是某个模型、某个产品或者某个框架独有的毛病,而是当前大模型的底层缺陷。
一、从底层原理看:它为什么会这样
1. 大模型就是一个概率生成器
今天的大模型,其本质上是 “根据上下文预测下一个最可能 token” 。

