大模型幻觉之 大模型让人产生幻觉

2026-04-11 15:141阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

xdm,关于AI能不能替代人类,我今天突然变得很乐观。

前两天一哥们在x客网私聊我,问要不要加入他的初创团队,做兼职。哥们对自己的项目非常的自信。大意是他做产品,负责调研市场,出方案,我干其中一部分活,做完项目之后挂平台卖,按成交量分成。画了一张非常大的饼:现在有完善的方案,我们只需要每天3-5小时,大概5天就做成一个项目,卖出一单后分成至少1w。

算日薪很高,对不对?

在我看到他的方案之前一切都正常。方案是邮件发给我的,字数还挺多,分工和步骤都挺明确的——好了,这就是全部的优点了。

他熬夜写出来的这个方案的可行性几乎为0。他想要训练一个模型,但市面上根本没数据,他的星期项目团队也当然是没有实验室来获取数据;他想验证模型鲁棒性,但他的假设和领域的常识是相悖的;他预期5天做完,但里面光是现有工具的集成和调试都要花上一两天…诸如此类,他的方案我也没看完,我一开始以为是我才疏学浅,找了其中我非常迷惑的部分,问了三个博士同学,他们也都表示看不懂,不像中文 。

我都能想到他怎么问的。“我想做xx项目,你觉得可行吗?”然后估计是某国产AI说,“你的想法太棒了!这个领域目前完全没有人做过,而且很有市场需求…”于是哥们基于大模型的谄媚性和幻觉,自己也产生了“我上我也行”的幻觉,误以为自己可以随便摇个人,几天搞定一个几十万的项目。

说实话我挺佩服他的行动力和想法,他想借助AI工具,探索自己不太了解的领域,寻求市场需求做一些项目,并招揽人才,而且据我所知,他自己一个人在管5个不同方向的项目组,熬夜写方案 。也是挺拼的。但是哥们,你好歹用好点的模型吧。现在这个方案直接丢给gemini 3 pro,他一下子就能说出至少5个漏洞,你就用这种方案一直跑一直跑,你熬再多的夜,又有什么意义呢?

我并非想讽刺试图用AI做项目调研的人,也并非不看好“一人公司”之类的,但目前看来,鉴于大模型仍然存在大量的幻觉,我们需要有能力评估他的回复。这也是前几天到的Anthropic网课中的4D框架里提到的内容。

关于“4D”,指的是Delegation, Description, Discernment, Diligence, 分别对应授权,描述,辨别和严肃认真(最后这个词不知道咋翻译好)。

  1. 授权:深思熟虑地决定哪些工作由人工智能完成,哪些工作由自己完成。
  2. 描述:与人工智能系统进行清晰的沟通
  3. 辨别力:以批判的眼光评估人工智能的输出和行为
  4. 严肃认真:确保以负责任的方式与人工智能互动(主要是一些伦理问题,例如声明某些部分由AI生成,之类的)

这里面其实每个环节都关键(抛开最后一个不谈),但我们往往直接感受到的、能产生最快反馈的,是“描述”。所以一部分人意识到要做提示词工程,详细描述出自己的想法,AI才能给出想要的答案。很好,但远远不够。“授权”和“辨别”这两个维度的能力,如果不具备,会有很严重的后果。你和大模型说“给我做个这个”,然后对着一个看上去完备的方案跑了很久,才发现里面的某一个环节根本就不对,但这个时候钱和时间都花了,啥也没得到,只知道了AI也不能全信——我们早该知道这个的。

关于“授权”,我觉得真得想想怎么用AI,不只是对于个人,也是对于企业来说。我们也许可以用AI基于已有的信息去做归纳,去进行推理,去修改语气,精简或者是扩写;结合网络搜索技能,可以用它去获取信息。但是我们暂时还不能把一个比较复杂的,尤其是专业领域很强的项目,直接扔给AI去做,他大概率会自己循环半天,然后说这个做不了。

由此引出市场和企业未来一段时间可能需要什么——就是如何保证AI的回复是可靠的,这是个难点,有的时候需要领域专家去评判,有的时候也许可以通过一些技巧,比如说自反思,或者是集成投票来一定程度上的缓解(但是归根结底这些方法都只是基于模型的能力,如果没有在这方面的专业数据上训练过,效果可能不会太理想)。

辨别能力也是一个难点,某些时候我们可以通过AI提供的引用内容,去推理得出他的方案是是否可行(嗯,这里要求我们具有一定的推理能力),但是这只解决一些逻辑上的问题,面对垂直领域的gap,我们可能没办法明确应该用什么信息来判断方案是否有漏洞。嗯…看来领域专家暂时还是有他的存在的价值。

网友解答:
--【壹】--:

AI时代下,真正能跑通商业的只有一小撮,一大批想搭AI顺风车的韭菜只会越来越多,如果AI能很轻松完成某个任务,那么这个任务的价值将会急剧降低到地板,对于复杂的任务来说,就依赖人类的智慧的,当然前期大量的失败是必然的,也算是AI发展中一种正常现象吧,毕竟AI给予了人类某种全能感,只是这种虚幻的全能感得在实践探索中不断去芜存菁,小项目小问题AI已经很强了。
当然即使跑通也存在问题,能不能依靠护城河防止别人入场卷到地板价,不能防止就只能吃一波了,就像御三家的优势比国产明显很多,但是代差有限,gemini 3.1的表现让人失望,如果保持不了先发优势,被追平用户流失是极其恐怖的。


--【贰】--:

AI好强->AI强,但是会瞎编->能不能少瞎编啊。越用越发现AI的局限性,但AI还是很强的。


--【叁】--:

至少到目前为止,我觉得项目开发,ai的角色只能是工具


--【肆】--:

是的,他完全不懂…


--【伍】--:

ai时代, 拥有自己的判断力变得更为重要.

我前几天还刚遇到了一些报错, 拿gpt5.4扫了半天只做了一些兜底性的修复, 给负责这块的程序同学看, 他能一眼看出我犯了什么错误, 甚至错在哪里都知道

我担心的是, 这种逐渐的经验积累和全局视角正在被ai冲淡, 人是变得越来越浮躁了, 只关注什么时候出效果


--【陆】--:

我觉得吧
七个人都能组团分工结合 AI 卖保健品了,不如…

奶奶说过:

训练一个模型

纯训练需要设备,微调要选底模,数据需要清洗
就算炼好了也才刚开始而已,投流什么的想想就害怕


--【柒】--:

被他忽悠进来的还有7个人你敢信。还有博士。


--【捌】--:

确实,不只是模型本身能产生幻觉,使用模型的人也会被忽悠着产生感觉,过度自信。我是深有感触,最终还是要自己懂才行。


--【玖】--:

幻想项目组
不会他只有你一个开发人员吧


--【拾】--:

以后ai+民科,等着享受吧


--【拾壹】--:

哈基米3也能挑出来漏洞吗…那很漏风了,不知道拿给GPT5.4和Claude opus 4.6能骂成啥样

问题描述:

xdm,关于AI能不能替代人类,我今天突然变得很乐观。

前两天一哥们在x客网私聊我,问要不要加入他的初创团队,做兼职。哥们对自己的项目非常的自信。大意是他做产品,负责调研市场,出方案,我干其中一部分活,做完项目之后挂平台卖,按成交量分成。画了一张非常大的饼:现在有完善的方案,我们只需要每天3-5小时,大概5天就做成一个项目,卖出一单后分成至少1w。

算日薪很高,对不对?

在我看到他的方案之前一切都正常。方案是邮件发给我的,字数还挺多,分工和步骤都挺明确的——好了,这就是全部的优点了。

他熬夜写出来的这个方案的可行性几乎为0。他想要训练一个模型,但市面上根本没数据,他的星期项目团队也当然是没有实验室来获取数据;他想验证模型鲁棒性,但他的假设和领域的常识是相悖的;他预期5天做完,但里面光是现有工具的集成和调试都要花上一两天…诸如此类,他的方案我也没看完,我一开始以为是我才疏学浅,找了其中我非常迷惑的部分,问了三个博士同学,他们也都表示看不懂,不像中文 。

我都能想到他怎么问的。“我想做xx项目,你觉得可行吗?”然后估计是某国产AI说,“你的想法太棒了!这个领域目前完全没有人做过,而且很有市场需求…”于是哥们基于大模型的谄媚性和幻觉,自己也产生了“我上我也行”的幻觉,误以为自己可以随便摇个人,几天搞定一个几十万的项目。

说实话我挺佩服他的行动力和想法,他想借助AI工具,探索自己不太了解的领域,寻求市场需求做一些项目,并招揽人才,而且据我所知,他自己一个人在管5个不同方向的项目组,熬夜写方案 。也是挺拼的。但是哥们,你好歹用好点的模型吧。现在这个方案直接丢给gemini 3 pro,他一下子就能说出至少5个漏洞,你就用这种方案一直跑一直跑,你熬再多的夜,又有什么意义呢?

我并非想讽刺试图用AI做项目调研的人,也并非不看好“一人公司”之类的,但目前看来,鉴于大模型仍然存在大量的幻觉,我们需要有能力评估他的回复。这也是前几天到的Anthropic网课中的4D框架里提到的内容。

关于“4D”,指的是Delegation, Description, Discernment, Diligence, 分别对应授权,描述,辨别和严肃认真(最后这个词不知道咋翻译好)。

  1. 授权:深思熟虑地决定哪些工作由人工智能完成,哪些工作由自己完成。
  2. 描述:与人工智能系统进行清晰的沟通
  3. 辨别力:以批判的眼光评估人工智能的输出和行为
  4. 严肃认真:确保以负责任的方式与人工智能互动(主要是一些伦理问题,例如声明某些部分由AI生成,之类的)

这里面其实每个环节都关键(抛开最后一个不谈),但我们往往直接感受到的、能产生最快反馈的,是“描述”。所以一部分人意识到要做提示词工程,详细描述出自己的想法,AI才能给出想要的答案。很好,但远远不够。“授权”和“辨别”这两个维度的能力,如果不具备,会有很严重的后果。你和大模型说“给我做个这个”,然后对着一个看上去完备的方案跑了很久,才发现里面的某一个环节根本就不对,但这个时候钱和时间都花了,啥也没得到,只知道了AI也不能全信——我们早该知道这个的。

关于“授权”,我觉得真得想想怎么用AI,不只是对于个人,也是对于企业来说。我们也许可以用AI基于已有的信息去做归纳,去进行推理,去修改语气,精简或者是扩写;结合网络搜索技能,可以用它去获取信息。但是我们暂时还不能把一个比较复杂的,尤其是专业领域很强的项目,直接扔给AI去做,他大概率会自己循环半天,然后说这个做不了。

由此引出市场和企业未来一段时间可能需要什么——就是如何保证AI的回复是可靠的,这是个难点,有的时候需要领域专家去评判,有的时候也许可以通过一些技巧,比如说自反思,或者是集成投票来一定程度上的缓解(但是归根结底这些方法都只是基于模型的能力,如果没有在这方面的专业数据上训练过,效果可能不会太理想)。

辨别能力也是一个难点,某些时候我们可以通过AI提供的引用内容,去推理得出他的方案是是否可行(嗯,这里要求我们具有一定的推理能力),但是这只解决一些逻辑上的问题,面对垂直领域的gap,我们可能没办法明确应该用什么信息来判断方案是否有漏洞。嗯…看来领域专家暂时还是有他的存在的价值。

网友解答:
--【壹】--:

AI时代下,真正能跑通商业的只有一小撮,一大批想搭AI顺风车的韭菜只会越来越多,如果AI能很轻松完成某个任务,那么这个任务的价值将会急剧降低到地板,对于复杂的任务来说,就依赖人类的智慧的,当然前期大量的失败是必然的,也算是AI发展中一种正常现象吧,毕竟AI给予了人类某种全能感,只是这种虚幻的全能感得在实践探索中不断去芜存菁,小项目小问题AI已经很强了。
当然即使跑通也存在问题,能不能依靠护城河防止别人入场卷到地板价,不能防止就只能吃一波了,就像御三家的优势比国产明显很多,但是代差有限,gemini 3.1的表现让人失望,如果保持不了先发优势,被追平用户流失是极其恐怖的。


--【贰】--:

AI好强->AI强,但是会瞎编->能不能少瞎编啊。越用越发现AI的局限性,但AI还是很强的。


--【叁】--:

至少到目前为止,我觉得项目开发,ai的角色只能是工具


--【肆】--:

是的,他完全不懂…


--【伍】--:

ai时代, 拥有自己的判断力变得更为重要.

我前几天还刚遇到了一些报错, 拿gpt5.4扫了半天只做了一些兜底性的修复, 给负责这块的程序同学看, 他能一眼看出我犯了什么错误, 甚至错在哪里都知道

我担心的是, 这种逐渐的经验积累和全局视角正在被ai冲淡, 人是变得越来越浮躁了, 只关注什么时候出效果


--【陆】--:

我觉得吧
七个人都能组团分工结合 AI 卖保健品了,不如…

奶奶说过:

训练一个模型

纯训练需要设备,微调要选底模,数据需要清洗
就算炼好了也才刚开始而已,投流什么的想想就害怕


--【柒】--:

被他忽悠进来的还有7个人你敢信。还有博士。


--【捌】--:

确实,不只是模型本身能产生幻觉,使用模型的人也会被忽悠着产生感觉,过度自信。我是深有感触,最终还是要自己懂才行。


--【玖】--:

幻想项目组
不会他只有你一个开发人员吧


--【拾】--:

以后ai+民科,等着享受吧


--【拾壹】--:

哈基米3也能挑出来漏洞吗…那很漏风了,不知道拿给GPT5.4和Claude opus 4.6能骂成啥样