高中生写的AI科普文,请佬友们看看
- 内容介绍
- 文章标签
- 相关推荐
AI会议现在有个标准流程:有人站台上堆LLM、Transformer、幻觉、Agent,底下一半在点头,另一半在手机上搜这些词。
两边都不太好意思说自己不懂。
今天就来讲讲这些词到底什么意思。
AI这个词,其实装了两种完全不同的东西
你刷短视频时,它知道你爱看猫咪视频——这叫判别式,一直在做选择题:“这是猫还是狗?”"这个用户会不会买?"永远在选,不会创造。
这几年火的ChatGPT、Claude这些,是另一回事,叫AIGC,生成式AI。给它一个开头,它能续写完;给它一个要求,它能凭空造出来。
两种都叫AI,但一个在判卷子,一个在写卷子。后者是这篇文章主要聊的。
LLM:人类有史以来最贪吃的文字接龙游戏机
LLM,大语言模型,这是你现在必须听懂的词。ChatGPT、Claude、Gemini、豆包、DeepSeek,全是它。
很多人一听"100B""神经网络"就开始眼神飘移,觉得这东西有独立意识,快统治世界了。
其实没那么玄。
LLM的核心逻辑就一句话:它是一个经过极度强化训练的文字接龙游戏机。
你跟它说"床前明月",它的任务就是算出下一个字概率最大的是什么——显然是"光"。然后再算下一个,再下一个,就这么一路接下去。
“但它不是能推理、能编程、能写诗吗?就靠接龙?”
这就是让所有人惊掉下巴的地方。
把互联网上能找到的中文英文文章、代码、书籍、论坛帖子全塞进去,参数堆到千亿量级——它就突然开窍了。没人教过它逻辑推理,但它会了。没人告诉它怎么调代码,但它摸出来了。研究者看着这个现象也挠头,给它起了个名字叫涌现(Emergence):量变到某个点,质就自己冒出来了。就像水分子本身没有"湿",但堆在一起,湿就有了。
720×407 81.8 KB
这里藏着一个很多人没意识到的推论:LLM没有"不知道"这个选项。
它只会一直生成下去,哪怕答案是胡编的。不是故意的,就是这么设计的。
Transformer:改变世界的那篇论文,题目叫《注意力就是你所需要的一切》
2017年,Google几位研究员发了一篇论文,英文标题叫《Attention Is All You Need》。
论文里提出了Transformer架构,这个名字你不一定熟,但它的孩子你肯定知道:GPT系列、Claude、BERT……现在所有的主流大模型,底子都是它。
在Transformer出现之前,AI读句子的方式是从左往右,一个字一个字处理,读到后面就忘了前面。几千字的文章,前面的内容早丢得差不多了。
Transformer发明了一种叫"自注意力"(Self-Attention)的东西,让AI可以一目十行,同时感知句子里所有词之间的关系。
举个例子:
“我买了个苹果,真的很好吃。” “我买了个苹果,信号超好。”
Transformer看到"苹果",会去扫全句找关联——第一句"好吃"权重高,水果;第二句"信号"权重高,手机。不用从左到右苦哈哈地读,一下子看到所有关联再下判断。这就是为什么Transformer出来之后,语言模型的能力突然上了一个台阶。
720×403 78.6 KB
开会不再干坐着:几个必须认识的词
以下这几个词,AI圈绕不开。
Prompt(提示词)
就是你输入给AI的那段话。同样的需求,写法不同,结果可能差一个天地。
“帮我写个邮件"和"你是一个外企HR,帮我用正式但不失亲切的语气,写一封婉拒面试邀请的邮件,对方是XX公司,理由是时间冲突”——出来的东西完全不是一个级别的。
720×387 94.1 KB
现在有人把研究怎么跟AI说话做成了一个职业,叫Prompt Engineer,提示词工程师。你可以笑,但他们薪资不低。
Token(词元)
AI不是按字计费的,是按Token。中文里大概一个字是一个Token,英文一个单词是一到两个Token。
举个例子,床前明月光,五个元素,就会转化为5个token给ai
720×419 76.8 KB
大模型的收费、长度限制,全是按Token算的。调用API报错"超出Token限制"——就是你输入太长了,AI一口吃不下。
Context Window(上下文窗口)
AI的短期记忆容量。你们对话里所有内容加起来超过这个窗口,前面的就会被"忘掉"。
720×464 124 KB
聊了很长一段之后AI突然不记得你说过的事,十有八九就是这个原因。现在各家都在卷这个数字,有些模型已经能一口气吃下好几本书。
Hallucination(幻觉)
AI一本正经地胡说八道。因为LLM的本质是预测概率最高的词,碰到自己"不会"的内容,它不会停下来说"不知道"——它会继续预测,给你编一个听起来完全合理的答案。
720×403 103 KB
有个真实案例:一个律师用ChatGPT查法律先例,AI给出了好几个案件,名称日期判决结果写得有模有样,律师直接引用到了庭审文件里。结果一查,那几个案子根本不存在,全是编的。律师被罚了款。
不是AI在故意骗你,它就是这个机制。用来查事实的时候,自己核一遍总没错。
新名词的批发市场:RAG、Agent、MCP……
这两年AI圈有个很有趣的现象,我称之为**“造词运动”**。
一个东西刚出来,各家争着给它起名字。RAG(检索增强生成)刚流行没多久,有人开始叫它"Context Engineering(上下文工程)";多步骤自动化任务,有人叫Agent,有人叫Agentic Workflow,有人叫AI Pipeline……大多数时候描述的是同一件事,就是换了个更时髦的壳。
我现在看到新词,第一反应是先不管它,等几个月再说。沉淀下来通常会发现,跟你已经知道的差不多。
RAG(检索增强生成)
Retrieval-Augmented Generation,简称RAG。
背景是这样:LLM的训练数据有截止日期,它不知道最新发生的事,也不知道你公司内部的文档。
RAG的做法是,你提问的时候,系统先去外部数据库里查一遍相关内容,把查到的段落塞进Prompt,再一起发给LLM,让它基于这些真实材料回答。
720×290 82.1 KB
说白了,RAG就是给AI配了一个临时外挂资料包。
Agent(AI智能体)
被说烂了,但真正理解的人不多。
普通的LLM用法:你问一句,它答一句,结束。
Agent的意思是:你给它一个目标,它自己规划步骤,调用工具(搜索、写代码、操作文件、发邮件……),一步一步执行到完成。中间出错了,它自己想办法修正,不需要你每步都盯着。
普通LLM是顾问,你问"我该怎么装修",它给你方案;Agent是施工队长,你说"把这个房间装修好",它自己排期找工人买材料验收,直到交钥匙。
现实中的Agent还是会出各种幺蛾子,但方向就是这样。
MCP(模型上下文协议)
Model Context Protocol,Anthropic(就是做Claude的那家公司)在2024年底提出的一个开放标准。
它解决的是一个工程问题:AI模型怎么和外部工具"插拔式"连接?
以前,你想让Claude能操作数据库,得自己写代码适配;想让它调日历API,又得再写一套。每个工具都是定制的,特别麻烦。
MCP提出了一个统一接口标准——所有工具按这个标准开发,AI就能即插即用,不用每次重新适配。
就是给AI世界统一了一套USB接口。
现在已经有几百个MCP Server,文件系统、浏览器、数据库、GitHub……理论上你能想到的工具都能接进来。
720×410 99.6 KB
Skills(AI技能包)
如果说MCP解决的是"AI能用什么工具",Skills解决的是"AI怎么用这些工具"。
普通对话模式下,你每次都得把任务说清楚,AI才知道该怎么做。Skills是把一套固定的工作流提前写好,打包成一个指令——下次你只要喊一声/commit,它就知道该检查diff、生成commit message、执行提交,整套流程一气完成,不需要你逐步指挥。
720×402 104 KB
一个省事的比喻:普通对话是临时雇人,每次都要交代清楚怎么干;Skills是训练好的助理,特定任务说个暗号就行。
MCP管工具,Skills管流程,两个配合起来才是完整的AI能力扩展。
为什么有些AI回答之前要先"想一下"
最近你可能发现,用某些模型的时候,它回答之前会先显示一段思考过程,有时候转好几秒才给你答案。
这就是推理模型(Reasoning Model),代表是gpt-o1、deepseekr1系列,以及各家现在跟进的"思考模式"。
普通LLM是想到哪说到哪;推理模型会先在脑子里转一圈,把问题拆开来想,确认每步没问题再给你答案。数学题、代码调试、多步骤推理,这些场景推理模型明显好很多。
代价是什么?慢,而且贵。 处理一个复杂问题可能花掉几十秒,费用高出好几倍。
我自己的判断是:当你发现普通模型给的答案逻辑漏洞一堆,但又懒得一步步跟它纠正的时候,换推理模型通常能一次搞定。
最后说一件没人告诉你的事
很多人以为AI是超级搜索引擎,你问它问题,它去数据库里查,然后把答案返回给你。
不是这样的。
LLM的知识是训练进参数里的。训练完成之后,那几千亿个参数就固定了。你问它问题,它是从这堆参数里"提取"出答案,不是实时去查。这也是为什么LLM有知识截止日期——那之后的事,如果没接实时搜索,它就是不知道。
还有一件有意思的事:同一个问题,你换个问法,它可能给你不同答案。不是在耍你,是因为它不在查固定答案,问法不同,它走的"路"不同,结果就不一样。所以给的背景越具体,出来的答案越稳定。越模糊的问题,越容易得到一个听起来正确但其实不太对的答案。
这些词背后,是一场没有终点的军备竞赛
最后说点感受性的东西。
关注这个领域好几年,有一件事一直让我觉得有趣:整个AI行业造词的速度,比技术迭代还快。
RAG刚被摸清楚,Context Engineering出来了。Agent还没统一定义,Agentic AI、Multi-Agent Framework又来了。每隔几个月就有一批新词涌进来,每一个听起来都划时代、都颠覆一切。
很多人因此陷在焦虑里——总觉得自己没跟上,不懂最新的词就落后了。
但这些词背后,本质上没那么多东西。LLM还是那个LLM,还是在预测下一个Token。 外面套的架构和工程方法在变,底层逻辑几年前就在那里了。
弄清楚LLM是什么、上下文窗口是什么、幻觉是怎么来的,新词进来你自然知道它是什么路数。
这也是写这篇文章的原因。
下次再有人在你面前堆砌这些词,可以淡定地问一句:你说的上下文窗口设了多少,幻觉问题怎么处理的?
看他怎么接。
原文:https://mp.weixin.qq.com/s/X_SCgTlYfQB0Y-50NTOO5w
https://zhuanlan.zhihu.com/p/2012194821255738287
--【壹】--:
很强 基本名词都讲的挺清楚明白的
--【贰】--:
写挺好啊
--【叁】--:
看着不错呀
--【肆】--:
路过支持,ai更新的太快了。
--【伍】--:
写得很好,同为高中生自愧不如。
--【陆】--: QingJ:
这就是推理模型(Reasoning Model),代表是gpt-4o、deepseekr1系列,以及各家现在跟进的"思考模式"。
4o是推理模型?
不会是ai写的吧
--【柒】--:
自己能力问题了,我一直以为o1的omni是4o的,不好意思,我更改一下
--【捌】--:
很不错的科普文
AI会议现在有个标准流程:有人站台上堆LLM、Transformer、幻觉、Agent,底下一半在点头,另一半在手机上搜这些词。
两边都不太好意思说自己不懂。
今天就来讲讲这些词到底什么意思。
AI这个词,其实装了两种完全不同的东西
你刷短视频时,它知道你爱看猫咪视频——这叫判别式,一直在做选择题:“这是猫还是狗?”"这个用户会不会买?"永远在选,不会创造。
这几年火的ChatGPT、Claude这些,是另一回事,叫AIGC,生成式AI。给它一个开头,它能续写完;给它一个要求,它能凭空造出来。
两种都叫AI,但一个在判卷子,一个在写卷子。后者是这篇文章主要聊的。
LLM:人类有史以来最贪吃的文字接龙游戏机
LLM,大语言模型,这是你现在必须听懂的词。ChatGPT、Claude、Gemini、豆包、DeepSeek,全是它。
很多人一听"100B""神经网络"就开始眼神飘移,觉得这东西有独立意识,快统治世界了。
其实没那么玄。
LLM的核心逻辑就一句话:它是一个经过极度强化训练的文字接龙游戏机。
你跟它说"床前明月",它的任务就是算出下一个字概率最大的是什么——显然是"光"。然后再算下一个,再下一个,就这么一路接下去。
“但它不是能推理、能编程、能写诗吗?就靠接龙?”
这就是让所有人惊掉下巴的地方。
把互联网上能找到的中文英文文章、代码、书籍、论坛帖子全塞进去,参数堆到千亿量级——它就突然开窍了。没人教过它逻辑推理,但它会了。没人告诉它怎么调代码,但它摸出来了。研究者看着这个现象也挠头,给它起了个名字叫涌现(Emergence):量变到某个点,质就自己冒出来了。就像水分子本身没有"湿",但堆在一起,湿就有了。
720×407 81.8 KB
这里藏着一个很多人没意识到的推论:LLM没有"不知道"这个选项。
它只会一直生成下去,哪怕答案是胡编的。不是故意的,就是这么设计的。
Transformer:改变世界的那篇论文,题目叫《注意力就是你所需要的一切》
2017年,Google几位研究员发了一篇论文,英文标题叫《Attention Is All You Need》。
论文里提出了Transformer架构,这个名字你不一定熟,但它的孩子你肯定知道:GPT系列、Claude、BERT……现在所有的主流大模型,底子都是它。
在Transformer出现之前,AI读句子的方式是从左往右,一个字一个字处理,读到后面就忘了前面。几千字的文章,前面的内容早丢得差不多了。
Transformer发明了一种叫"自注意力"(Self-Attention)的东西,让AI可以一目十行,同时感知句子里所有词之间的关系。
举个例子:
“我买了个苹果,真的很好吃。” “我买了个苹果,信号超好。”
Transformer看到"苹果",会去扫全句找关联——第一句"好吃"权重高,水果;第二句"信号"权重高,手机。不用从左到右苦哈哈地读,一下子看到所有关联再下判断。这就是为什么Transformer出来之后,语言模型的能力突然上了一个台阶。
720×403 78.6 KB
开会不再干坐着:几个必须认识的词
以下这几个词,AI圈绕不开。
Prompt(提示词)
就是你输入给AI的那段话。同样的需求,写法不同,结果可能差一个天地。
“帮我写个邮件"和"你是一个外企HR,帮我用正式但不失亲切的语气,写一封婉拒面试邀请的邮件,对方是XX公司,理由是时间冲突”——出来的东西完全不是一个级别的。
720×387 94.1 KB
现在有人把研究怎么跟AI说话做成了一个职业,叫Prompt Engineer,提示词工程师。你可以笑,但他们薪资不低。
Token(词元)
AI不是按字计费的,是按Token。中文里大概一个字是一个Token,英文一个单词是一到两个Token。
举个例子,床前明月光,五个元素,就会转化为5个token给ai
720×419 76.8 KB
大模型的收费、长度限制,全是按Token算的。调用API报错"超出Token限制"——就是你输入太长了,AI一口吃不下。
Context Window(上下文窗口)
AI的短期记忆容量。你们对话里所有内容加起来超过这个窗口,前面的就会被"忘掉"。
720×464 124 KB
聊了很长一段之后AI突然不记得你说过的事,十有八九就是这个原因。现在各家都在卷这个数字,有些模型已经能一口气吃下好几本书。
Hallucination(幻觉)
AI一本正经地胡说八道。因为LLM的本质是预测概率最高的词,碰到自己"不会"的内容,它不会停下来说"不知道"——它会继续预测,给你编一个听起来完全合理的答案。
720×403 103 KB
有个真实案例:一个律师用ChatGPT查法律先例,AI给出了好几个案件,名称日期判决结果写得有模有样,律师直接引用到了庭审文件里。结果一查,那几个案子根本不存在,全是编的。律师被罚了款。
不是AI在故意骗你,它就是这个机制。用来查事实的时候,自己核一遍总没错。
新名词的批发市场:RAG、Agent、MCP……
这两年AI圈有个很有趣的现象,我称之为**“造词运动”**。
一个东西刚出来,各家争着给它起名字。RAG(检索增强生成)刚流行没多久,有人开始叫它"Context Engineering(上下文工程)";多步骤自动化任务,有人叫Agent,有人叫Agentic Workflow,有人叫AI Pipeline……大多数时候描述的是同一件事,就是换了个更时髦的壳。
我现在看到新词,第一反应是先不管它,等几个月再说。沉淀下来通常会发现,跟你已经知道的差不多。
RAG(检索增强生成)
Retrieval-Augmented Generation,简称RAG。
背景是这样:LLM的训练数据有截止日期,它不知道最新发生的事,也不知道你公司内部的文档。
RAG的做法是,你提问的时候,系统先去外部数据库里查一遍相关内容,把查到的段落塞进Prompt,再一起发给LLM,让它基于这些真实材料回答。
720×290 82.1 KB
说白了,RAG就是给AI配了一个临时外挂资料包。
Agent(AI智能体)
被说烂了,但真正理解的人不多。
普通的LLM用法:你问一句,它答一句,结束。
Agent的意思是:你给它一个目标,它自己规划步骤,调用工具(搜索、写代码、操作文件、发邮件……),一步一步执行到完成。中间出错了,它自己想办法修正,不需要你每步都盯着。
普通LLM是顾问,你问"我该怎么装修",它给你方案;Agent是施工队长,你说"把这个房间装修好",它自己排期找工人买材料验收,直到交钥匙。
现实中的Agent还是会出各种幺蛾子,但方向就是这样。
MCP(模型上下文协议)
Model Context Protocol,Anthropic(就是做Claude的那家公司)在2024年底提出的一个开放标准。
它解决的是一个工程问题:AI模型怎么和外部工具"插拔式"连接?
以前,你想让Claude能操作数据库,得自己写代码适配;想让它调日历API,又得再写一套。每个工具都是定制的,特别麻烦。
MCP提出了一个统一接口标准——所有工具按这个标准开发,AI就能即插即用,不用每次重新适配。
就是给AI世界统一了一套USB接口。
现在已经有几百个MCP Server,文件系统、浏览器、数据库、GitHub……理论上你能想到的工具都能接进来。
720×410 99.6 KB
Skills(AI技能包)
如果说MCP解决的是"AI能用什么工具",Skills解决的是"AI怎么用这些工具"。
普通对话模式下,你每次都得把任务说清楚,AI才知道该怎么做。Skills是把一套固定的工作流提前写好,打包成一个指令——下次你只要喊一声/commit,它就知道该检查diff、生成commit message、执行提交,整套流程一气完成,不需要你逐步指挥。
720×402 104 KB
一个省事的比喻:普通对话是临时雇人,每次都要交代清楚怎么干;Skills是训练好的助理,特定任务说个暗号就行。
MCP管工具,Skills管流程,两个配合起来才是完整的AI能力扩展。
为什么有些AI回答之前要先"想一下"
最近你可能发现,用某些模型的时候,它回答之前会先显示一段思考过程,有时候转好几秒才给你答案。
这就是推理模型(Reasoning Model),代表是gpt-o1、deepseekr1系列,以及各家现在跟进的"思考模式"。
普通LLM是想到哪说到哪;推理模型会先在脑子里转一圈,把问题拆开来想,确认每步没问题再给你答案。数学题、代码调试、多步骤推理,这些场景推理模型明显好很多。
代价是什么?慢,而且贵。 处理一个复杂问题可能花掉几十秒,费用高出好几倍。
我自己的判断是:当你发现普通模型给的答案逻辑漏洞一堆,但又懒得一步步跟它纠正的时候,换推理模型通常能一次搞定。
最后说一件没人告诉你的事
很多人以为AI是超级搜索引擎,你问它问题,它去数据库里查,然后把答案返回给你。
不是这样的。
LLM的知识是训练进参数里的。训练完成之后,那几千亿个参数就固定了。你问它问题,它是从这堆参数里"提取"出答案,不是实时去查。这也是为什么LLM有知识截止日期——那之后的事,如果没接实时搜索,它就是不知道。
还有一件有意思的事:同一个问题,你换个问法,它可能给你不同答案。不是在耍你,是因为它不在查固定答案,问法不同,它走的"路"不同,结果就不一样。所以给的背景越具体,出来的答案越稳定。越模糊的问题,越容易得到一个听起来正确但其实不太对的答案。
这些词背后,是一场没有终点的军备竞赛
最后说点感受性的东西。
关注这个领域好几年,有一件事一直让我觉得有趣:整个AI行业造词的速度,比技术迭代还快。
RAG刚被摸清楚,Context Engineering出来了。Agent还没统一定义,Agentic AI、Multi-Agent Framework又来了。每隔几个月就有一批新词涌进来,每一个听起来都划时代、都颠覆一切。
很多人因此陷在焦虑里——总觉得自己没跟上,不懂最新的词就落后了。
但这些词背后,本质上没那么多东西。LLM还是那个LLM,还是在预测下一个Token。 外面套的架构和工程方法在变,底层逻辑几年前就在那里了。
弄清楚LLM是什么、上下文窗口是什么、幻觉是怎么来的,新词进来你自然知道它是什么路数。
这也是写这篇文章的原因。
下次再有人在你面前堆砌这些词,可以淡定地问一句:你说的上下文窗口设了多少,幻觉问题怎么处理的?
看他怎么接。
原文:https://mp.weixin.qq.com/s/X_SCgTlYfQB0Y-50NTOO5w
https://zhuanlan.zhihu.com/p/2012194821255738287
--【壹】--:
很强 基本名词都讲的挺清楚明白的
--【贰】--:
写挺好啊
--【叁】--:
看着不错呀
--【肆】--:
路过支持,ai更新的太快了。
--【伍】--:
写得很好,同为高中生自愧不如。
--【陆】--: QingJ:
这就是推理模型(Reasoning Model),代表是gpt-4o、deepseekr1系列,以及各家现在跟进的"思考模式"。
4o是推理模型?
不会是ai写的吧
--【柒】--:
自己能力问题了,我一直以为o1的omni是4o的,不好意思,我更改一下
--【捌】--:
很不错的科普文

