大模型幻觉之大模型让人产生幻觉

2026-04-11 15:141阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

xdm，关于AI能不能替代人类，我今天突然变得很乐观。

前两天一哥们在x客网私聊我，问要不要加入他的初创团队，做兼职。哥们对自己的项目非常的自信。大意是他做产品，负责调研市场，出方案，我干其中一部分活，做完项目之后挂平台卖，按成交量分成。画了一张非常大的饼：现在有完善的方案，我们只需要每天3-5小时，大概5天就做成一个项目，卖出一单后分成至少1w。

算日薪很高，对不对？

在我看到他的方案之前一切都正常。方案是邮件发给我的，字数还挺多，分工和步骤都挺明确的——好了，这就是全部的优点了。

他熬夜写出来的这个方案的可行性几乎为0。他想要训练一个模型，但市面上根本没数据，他的星期项目团队也当然是没有实验室来获取数据；他想验证模型鲁棒性，但他的假设和领域的常识是相悖的；他预期5天做完，但里面光是现有工具的集成和调试都要花上一两天…诸如此类，他的方案我也没看完，我一开始以为是我才疏学浅，找了其中我非常迷惑的部分，问了三个博士同学，他们也都表示看不懂，不像中文。

我都能想到他怎么问的。“我想做xx项目，你觉得可行吗？”然后估计是某国产AI说，“你的想法太棒了！这个领域目前完全没有人做过，而且很有市场需求…”于是哥们基于大模型的谄媚性和幻觉，自己也产生了“我上我也行”的幻觉，误以为自己可以随便摇个人，几天搞定一个几十万的项目。

说实话我挺佩服他的行动力和想法，他想借助AI工具，探索自己不太了解的领域，寻求市场需求做一些项目，并招揽人才，而且据我所知，他自己一个人在管5个不同方向的项目组，熬夜写方案。也是挺拼的。但是哥们，你好歹用好点的模型吧。现在这个方案直接丢给gemini 3 pro，他一下子就能说出至少5个漏洞，你就用这种方案一直跑一直跑，你熬再多的夜，又有什么意义呢？

我并非想讽刺试图用AI做项目调研的人，也并非不看好“一人公司”之类的，但目前看来，鉴于大模型仍然存在大量的幻觉，我们需要有能力评估他的回复。这也是前几天到的Anthropic网课中的4D框架里提到的内容。

关于“4D”，指的是Delegation, Description, Discernment, Diligence, 分别对应授权，描述，辨别和严肃认真（最后这个词不知道咋翻译好）。

授权：深思熟虑地决定哪些工作由人工智能完成，哪些工作由自己完成。
描述：与人工智能系统进行清晰的沟通
辨别力：以批判的眼光评估人工智能的输出和行为
严肃认真：确保以负责任的方式与人工智能互动（主要是一些伦理问题，例如声明某些部分由AI生成，之类的）

这里面其实每个环节都关键（抛开最后一个不谈），但我们往往直接感受到的、能产生最快反馈的，是“描述”。所以一部分人意识到要做提示词工程，详细描述出自己的想法，AI才能给出想要的答案。很好，但远远不够。“授权”和“辨别”这两个维度的能力，如果不具备，会有很严重的后果。你和大模型说“给我做个这个”，然后对着一个看上去完备的方案跑了很久，才发现里面的某一个环节根本就不对，但这个时候钱和时间都花了，啥也没得到，只知道了AI也不能全信——我们早该知道这个的。

关于“授权”，我觉得真得想想怎么用AI，不只是对于个人，也是对于企业来说。我们也许可以用AI基于已有的信息去做归纳，去进行推理，去修改语气，精简或者是扩写；结合网络搜索技能，可以用它去获取信息。但是我们暂时还不能把一个比较复杂的，尤其是专业领域很强的项目，直接扔给AI去做，他大概率会自己循环半天，然后说这个做不了。

由此引出市场和企业未来一段时间可能需要什么——就是如何保证AI的回复是可靠的，这是个难点，有的时候需要领域专家去评判，有的时候也许可以通过一些技巧，比如说自反思，或者是集成投票来一定程度上的缓解（但是归根结底这些方法都只是基于模型的能力，如果没有在这方面的专业数据上训练过，效果可能不会太理想）。

辨别能力也是一个难点，某些时候我们可以通过AI提供的引用内容，去推理得出他的方案是是否可行（嗯，这里要求我们具有一定的推理能力），但是这只解决一些逻辑上的问题，面对垂直领域的gap，我们可能没办法明确应该用什么信息来判断方案是否有漏洞。嗯…看来领域专家暂时还是有他的存在的价值。

网友解答：

--【壹】--：

AI时代下，真正能跑通商业的只有一小撮，一大批想搭AI顺风车的韭菜只会越来越多，如果AI能很轻松完成某个任务，那么这个任务的价值将会急剧降低到地板，对于复杂的任务来说，就依赖人类的智慧的，当然前期大量的失败是必然的，也算是AI发展中一种正常现象吧，毕竟AI给予了人类某种全能感，只是这种虚幻的全能感得在实践探索中不断去芜存菁，小项目小问题AI已经很强了。
当然即使跑通也存在问题，能不能依靠护城河防止别人入场卷到地板价，不能防止就只能吃一波了，就像御三家的优势比国产明显很多，但是代差有限，gemini 3.1的表现让人失望，如果保持不了先发优势，被追平用户流失是极其恐怖的。

--【贰】--：

AI好强->AI强，但是会瞎编->能不能少瞎编啊。越用越发现AI的局限性，但AI还是很强的。

--【叁】--：

至少到目前为止，我觉得项目开发，ai的角色只能是工具

--【肆】--：

是的，他完全不懂…

--【伍】--：

ai时代, 拥有自己的判断力变得更为重要.

我前几天还刚遇到了一些报错, 拿gpt5.4扫了半天只做了一些兜底性的修复, 给负责这块的程序同学看, 他能一眼看出我犯了什么错误, 甚至错在哪里都知道

我担心的是, 这种逐渐的经验积累和全局视角正在被ai冲淡, 人是变得越来越浮躁了, 只关注什么时候出效果

--【陆】--：

我觉得吧
七个人都能组团分工结合 AI 卖保健品了，不如…

奶奶说过:

训练一个模型

纯训练需要设备，微调要选底模，数据需要清洗
就算炼好了也才刚开始而已，投流什么的想想就害怕

--【柒】--：

被他忽悠进来的还有7个人你敢信。还有博士。

--【捌】--：

确实，不只是模型本身能产生幻觉，使用模型的人也会被忽悠着产生感觉，过度自信。我是深有感触，最终还是要自己懂才行。

--【玖】--：

幻想项目组
不会他只有你一个开发人员吧

--【拾】--：

以后ai+民科，等着享受吧

--【拾壹】--：

哈基米3也能挑出来漏洞吗…那很漏风了，不知道拿给GPT5.4和Claude opus 4.6能骂成啥样

标签：人工智能职场软件开发纯水树洞