简单易懂的LLM相关知识梳理-ep.1-2 各家模型的特点-开源篇
- 内容介绍
- 文章标签
- 相关推荐
目录帖:
简单易懂的LLM相关知识梳理 文档共建迫于项目被砍,失业赋闲在家,恰好也快过年了不想动了,想了下写点文章回馈下社区吧。 PS:如有年后Base重庆的AI/全栈/FAE岗可PM我 本文从实用角度出发,梦到哪写哪。部分八股文知识就不搬了,这里主要分享一下本人在使用各种云服务及本地部署过程中学到的知识。 这里优先介绍LLM/VLM,暂不涉及音频/视频/Omni相关模型(也可能梦到了以后补一下) 注:文章为本人手写,部分模型介绍搬运自…
本章以开源/闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。
开源模型:百花齐放
如果说商业闭源领域里牢美是老大哥,那牢中就是开源赛道上的扛把子。篇幅所限,本文只讨论2025至今热度最高的几家。当然,Meta的LLaMA也不再讨论,因为LLaMA 4很拉非常拉,只有LLaMa 3世代及其变体有一定的使用价值。
由于开源模型的参数及介绍均可以在Huggingface的Model Card及config.json中找到,这里的表格将不再赘述。
| 公司/机构 | AI 模型系列 |
|---|---|
| 深度求索 | DeepSeek系列 |
| 阿里巴巴 | Qwen系列 |
| 智谱 | GLM系列 |
| 月之暗面 | Kimi系列 |
| MiniMax | MiniMax系列 |
| 腾讯 | Hunyuan(HY)系列 |
| 小米 | Mimo系列 |
| 美团 | LongCat系列 |
| 谷歌 | Gemma系列 |
| OpenAI | GPT-OSS系列 |
DeepSeek:真金不怕火炼
其实开源模型这里东西太多了,实在是写不过来。本来想把几种模型按类别分成几大块一起讲,但DeepSeek实在太重要了。想了下,还是像ep.1-1一样拆成一节节去写吧,哪怕每小节短些。
从最早的Dense模型,再到V2 / V2.5转向MoE,最后到V3 / R1的火爆出圈,深度求索一直在认真做事。早在V2.5时期,DeepSeek就以极致性价比吸引了我——那时候还没有那么多选择,中转站也是各种掺水或者价格高昂,心黑完了。
通义千问和DeepSeek有相似之处——拥抱开源,有真本事,产品稀碎。当然千问好歹还有几个带点C端功能的入口,到了DeepSeek这就是纯纯的毛坯房,要啥没啥,只有最纯粹极致的便宜API,爱用不用。这非常败路人缘,比如某乎上随便什么人都可以出来批判一番。
DeepSeek V3 / R1及其变体大规模应用了RL及合成数据训练,能力很强。但对齐在当下的环境来看是不太够用了,那么RL的苦果就不得不吞:幻觉严重,文风放飞自我到癫狂,创意写作如同梦呓,很难相信一个致幻剂违法的国家会诞生DeepSeek这种东西。
但正如同Claude日常被各种编码模型拉出来PK军训一样,DeepSeek也日常被各种模型拉出来当Base。无论你喜欢它还是讨厌它,它就在这。大杯模型守门员,开源领域试金石;只要在几个领域能够超越DeepSeek,就能加冕登基,打不过DeepSeek就别上桌吃饭了。
2025年1月份的V3 / R1堪称LLM发癫史上最浓墨重彩的一笔。与同期的GPT / Claude家族相比,幻觉几乎高了一个量级。意外地,很多人喜欢这一版,认为它富有想象力和文学性(虽然我感觉本质上这是胡扯的另外一种高情商表达形式)。但要命的是,由于DeepSeek被神秘力量大力宣传,不少尝试接触新技术的人被幻觉狠狠地坑了一把,从此路转黑。这一切发生的有点巧,有点可惜。后续版本渐渐补全了一些能力,然后在3.1上融合了思考与非思考(同期的Qwen3家族在吃了个亏以后反而把融合思考给拆开了),但又闹出来了个极你太美事件。
3.2上启用了稀疏注意力机制并且实现了交错思考,给2025年划上了一个句号。所有人都在期待着DeepSeek V4能否王者回归,再一次狠狠地踢闭源模型的屁股。
在当下的时间点上,DeepSeek属于万金油模型,样样都能做,样样都不精。但685B的参数配上非常美丽的价格,很适合作为企业接入的选项之一。
| 模型名称 | 备注 |
|---|---|
| DeepSeek-V3 | 初代V3,发癫 |
| DeepSeek-V3-0324 | 解决了一部分发癫问题,但幻觉依旧 |
| DeepSeek-V3.1 | 融合了思考与非思考,注意存在极你太美问题 |
| DeepSeek-V3.1-Terminus | 修复极你太美 |
| DeepSeek-V3.2 | 目前最新的模型,靠DSA进一步压低推理价格 |
| DeepSeek-R1 | 初代R1,发癫 |
| DeepSeek-R1-0528 | 解决了一部分发癫问题,但幻觉依旧 |
阿里巴巴:乱拳打死老师傅
被乱拳打死的是谁呢?好难猜,肯定不是Meta吧。阿里从Qwen 2.5开始彻底发力,和当时风头正盛的LLaMA分庭抗礼。当开源爱好者们都以为Meta要憋大招时,没想到拉了坨大的,LLaMA4和LMArena一起被扫进了历史的垃圾堆(同时酷爱刷LMA的还有文心ERNIE)。但把视线再向前推一下,Qwen2世代似乎就有搞模海战术的前兆。到了Qwen2.5开始则是给出了从适合学术研究的0.5B到能够执行绝大部分日常任务的72B各种尺寸,从CPU到3090都总有一款适合你。与此同时还带来了相当够用的Qwen2.5 VL系列,结束了国模无视觉大将的时代。
很可惜,当大家翘首期盼Qwen3的时候,不出意外应该是出意外了。Qwen3初代模型对齐也出现了问题,2504被钉上了耻辱柱。然而Qwen3家族的模型给的更多更全划分更细,从0.6B到235B,Dense和MoE都有,就算捏着鼻子也得品鉴。
很快,Qwen3 2507推出了,奠定了Qwen3家族真正的基础,现在使用的通义千问3家族基本都出自这一版。
Qwen系列出色的指令遵循能力以及开源各种权重及家族工具都使得Qwen成为了开发者不得不品鉴的一环。为微调(套皮)、开发AI应用或者企业私有化部署感到烦恼?看看Qwen的Huggingface仓库找找答案吧,你想要的基本都有。但端上来的太多力,求求你饶了我吧(
- 如果有2507变体,则代指2507而非2504版本。
- 由于Qwen3家族的大语言模型实在太多,故拆分表格。
- 30B-A3B体感类似于14B Dense模型。
- Qwen3 Next很好用,是中小企业部署的绝佳选择…如果不需要VL的话。
Qwen3系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-235B-A22B-Thinking | MoE模型,思考模式,专注推理能力(很耗Token!) |
| Qwen3-235B-A22B-Instruct | MoE模型,指令微调版本(同样有输出思维链的倾向) |
| Qwen3-30B-A3B-Thinking | MoE模型,思考模式。非常适合资源有限的用户推理,激活3B就算在核显上也能跑的很快 |
| Qwen3-30B-A3B-Instruct | MoE模型,指令微调版本,同上 |
| Qwen3-32B | 密集模型,性能强于30BA3B,但Dense不适合端侧推理 |
| Qwen3-14B | 密集模型,从这里开始大部分家用显卡也能爽玩 |
| Qwen3-8B | 密集模型 |
| Qwen3-4B | 密集模型,从这里开始视作端侧推理范畴 |
| Qwen3-1.7B | 密集模型 |
| Qwen3-0.6B | 密集模型,学术研究用居多 |
Qwen3-VL系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-VL-235B-A22B-Thinking | MoE视觉语言模型,思考模式,开源视觉模的神 |
| Qwen3-VL-235B-A22B-Instruct | MoE视觉语言模型,指令版本,同上 |
| Qwen3-VL-32B-Instruct | 很少用 |
| Qwen3-VL-30B-A3B-Instruct | MoE视觉语言模型,推理飞快,也是神 |
| Qwen3-VL-8B-Instruct | 密集语言模型,实际上已经能胜任大部分任务 |
| Qwen3-VL-4B-Instruct | 很适合端侧推理 |
| Qwen3-VL-2B-Instruct | 有点小了,学术研究用居多 |
Qwen3 Coder & Next 系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-Coder-480B-A35B-Instruct | 480B参数MoE代码生成模型,够用,最重要的是Qwen Coder CLI提供不要钱的。但非常烧Token,已经不如更新的GLM和MiniMax好用了 |
| Qwen3-Coder-30B-A3B-Instruct | 国企/军工码农优选,很容易就能本地部署起来 |
| Qwen3-Next-80B-A3B-Instruct | 门控注意力实现的稀疏模型,总参数80B保证了世界知识的前提上只要3B激活,非常好用 |
| Qwen3-Next-80B-A3B-Thinking | 同上,思考模式版本。本地部署再也不怕Qwen烧Token导致慢的抠脚啦,3B激活推理飞快 |
智谱、MiniMax、月之暗面:从六小龙到四小虎
为什么四小虎里只讲了这三个?以本文的讨论范围来看,阶跃星辰其实也属于路边一条级别。
2025年里这三家真可谓是猛猛发力,想通了A÷的模式其实是对的,都转头去做Coding Agent模型了。但为什么每次宣传的时候都要把Claude拉出来遛…给人一种某米某花某ov发布的时候总要蹭一下苹果的感觉。其实产品已经做的挺好了,再接再厉就是。
先说智谱,前身是THUDM,属于从LLaMA时代一路走过来的老将了。当年本地部署最早能讲明白中文的就是chatglm-6b,给人留下了深刻印象。可惜GLM时代一开始扭扭捏捏不肯开源,直到GLM4后期开始回过神来开始全面拥抱社区。GLM-4和GLM4-0414的牛刀小试给人足够好的印象,稳定低幻觉的输出非常适用于RAG场景。
在各家都间歇性拉坨大的大背景下,GLM憋了个好活,从4.5到4.7一路高歌猛进,用上了358B的MoE。当然这个尺寸基本上就跟HomeLab和小企业没缘分了,然而Coding Agent的能力突飞猛进也是事实。假如你写代码的时候不被允许使用国外大模型的话,GLM家族是非常好的选择,和MiniMax互为竞争对手。
| 模型名 | 备注 |
|---|---|
| GLM-4.5 | 358B-A32B,梦开始的地方 |
| GLM-4.5-Air | GLM-4.5精简版,106B-A12B,非常适合中小企业部署使用,四张4090美美跑量化版 |
| GLM-4.5V | 带视觉的4.5 Air,但上下文长度受限 |
| GLM-4.6 | 进一步增强了能力,相当够用 |
| GLM-4.6V | 其实就是带视觉的4.6 Air,只不过本代没出Air |
| GLM-4.7 | 最新的支持交错思考的旗舰型号 |
然后是MiniMax,跟智谱真是一对苦命鸳鸯,在港股赛跑上市,最终智谱领先一天。MiniMax在学习Claude的路上更加激进,仅用了230B参数就能够和GLM系列掰手腕,处于编码模型的T1梯队。MiniMax-M2引入了交错思考,配合Agent方面的训练,在代码工程上的能力得到了显著提升。而且由于激活参数相比GLM系列更小,在推理速度上优势尤为显著。需要注意的是,在实际工作中one shot是很难的,很多时候都需要手动测试然后提出问题再尝试修复BUG才能得到最终满意的结果,所以推理速度是很重要的一个评判指标。
此外,MiniMax的音视频合成同样性价比很高,海外业务做的不错。
| 模型名 | 备注 |
|---|---|
| MiniMax-M2 | 230B-A10B |
| MiniMax-M2.1 | 进一步增强了代码能力 |
最后是月之暗面的Kimi系列。月之暗面其实之前的底模都很一般(K1.5时代),但产品和营销都做的不错。可以说国产AI里月之暗面的产品能够跟豆包一较高下,而网络搜索效果可能还要更胜一筹。
有没有一种比DeepSeek更适合编码的DeepSeek?有的,那就是Kimi K2家族。K2在DeepSeek的架构上进行了Scaling up,用开源的1T巨模震撼了所有人的眼球。大参数量带来的泛化能力增强显而易见:情感更细腻,写代码也能够力大砖飞。后续K2趁热打铁推出了K2-Instruct-0905以进一步逼近Claude水平,还推出了带有思考模式的Kimi-K2-Thinking。够大的参数带来了更多的世界知识,不少冷门的编码场景K2也能够解决。优点说完了那缺点呢?1T巨模的计算成本实在是太高了,性价比和推理速度上是不如上面两家的。
2026.1.27:更新了Kimi K2.5,融合了思考和非思考模式,进一步强化了Agent能力,而且支持视觉了。1T巨模+视觉带来的是前端开发能力的飞跃。美国有基米,中国有Kimi!
Kimi是少有的网页比API好用的厂,网络搜索和深度研究都不错:
| 模型名 | 备注 |
|---|---|
| Kimi-K2-Instruct | 1T巨模,不带思考 |
| Kimi-K2-Instruct-0905 | 进一步增强了代码能力 |
| Kimi-K2-Thinking | 带思考的版本 |
| Kimi-K2.5 | 可以开关思考,支持视觉,K2完全体 |
腾讯、小米、美团:互联网厂赶晚集的救赎
看到其他厂做AI如火如荼,这几家也坐不住了。
腾讯和字节有点像的是,都在音视频媒体/多模态方向发力。但腾讯的LLM…就此略过,也就Hunyuan-A13B有点价值,在80B这个档可以和Qwen掰手腕。混元的3D一直做的不错。
如果小米进场,那么这个时机一定已经成熟。小米在罗福莉加入后,MiMo家族也初露峥嵘。MiMo-7B及VL变体基本就是Qwen2.5上训练得来,没什么太多的可圈可点之处。但Miloco和MiMo-V2-Flash却收获了一些好评。Miloco是在MiMo-VL基础上再次训练得来的智能家居视觉模型,小尺寸保证了私有化部署的可行性,希望视觉大模型能够给智能家居再次注入一支强心针。而MiMo-V2-Flash是一款309B-A15B的MoE模型,前DeepSeek研究员携MiMo归来挑战老东家,V我50听复仇计划?目前MiMo V2处于免费阶段,也着重宣传了编码性能,但我更看希望看到的是MiMo在Agent结合米厂的各种智能硬件的落地探索,现在AI成功落地转化的场景太少了。
| 模型名 | 备注 |
|---|---|
| Xiaomi-MiMo-VL-Miloco-7B | 视觉模型,私有化部署智能家居用 |
| MiMo-V2-Flash | 快速的编码&Agent模型 |
美团LongCat:龙猫?长猫?这个名字有点难绷。LongCat-Flash虽说叫Flash,但实际上是一款560B-A27B的大模。美团也在音视频上发力,除了大语言模型外还有生图模型以及视频模型,有点黏着Qwen贴身搏斗的感觉。只谈大模型来说,LongCat感觉平平无奇,且待后面发展。比起MiMo Flash的0.7元输入/2.1元输出来说,LongCat-Flash的5元输出就显得有些不值了。
谷歌、OpenAI:秀肌肉
俗话说,命里缺啥,名字里就得起啥,所以OpenAI不Open也非常合理。自从GPT-2后OpenAI就再也没放出LLM的权重,期间只是端出了Whisper。奥特曼在造了好几个月的势后,终于扭扭捏捏地放出了所谓堪比o3-mini的gpt-oss系列,可惜o3早已过气。而且gpt-oss真的能和o3-mini比肩吗?缺少了视觉能力、离谱的自我审查,还有着超高的幻觉,以至于LiveCodeBench上出现了gpt-oss-20b反杀gpt-oss-120b的奇观,因为120b版本的幻觉实在是太高了。
当然,事物总是有两面性的。gpt-oss的放出给了大家许多启发,比如稀疏注意力、原生MXFP4、在思考中调用工具…总之,这是一个适合研究学习用的模型,而不太适合中国应用场景下的部署使用。
| 模型名 | 备注 |
|---|---|
| gpt-oss-20b | 原生MXFP4,很小很快,处理日常任务还挺好用 |
| gpt-oss-120b | 一坨,强烈不推荐。在Antigravity里和Claude 4.5 Opus并列有一种我和科比合砍83分的美感 |
到了谷歌这里又不太一样了:Gemma家族在国外社区还是一个不错的选项。Gemma 3虽然已经较老,但27B Dense结构带视觉在某些特定场景下可能也会有不错的效果,与Qwen3-VL可以掰掰手腕。尤其需要注意的是,Gemma 3有许多变体,比如医疗领域微调的medgemma、端侧使用的t5gemma、gemma-3n等。这里仅介绍主力Gemma 3家族,对端侧推理感兴趣的可以自行了解。
Gemma 3比起Qwen 3家族的优势之一是谷歌给出了Gemma 3 QAT权重。量化感知训练版本比起传统PTQ来说,可以在量化到更低精度时保持较好的性能。这对于HomeLab玩家来说是一个好消息。如果你希望在家里部署一个性能尚可且带有视觉的大模型,你需要做出选择的就是Gemma 3还是Qwen 3。
下方是原始指令对齐权重(其他变体请在Huggingface上自行查询):
| 模型名 | 备注 |
|---|---|
| gemma-3-1b-it | - |
| gemma-3-4b-it | - |
| gemma-3-12b-it | - |
| gemma-3-27b-it | - |
--【壹】--:
太详细了佬
--【贰】--:
点赞支持
--【叁】--:
感谢大佬!
--【肆】--:
看完了,坐等下一篇
--【伍】--:
感谢佬友的文章,看起来很不错
--【陆】--:
太强了佬,太精辟了。特别是chatglm-6b,那真的是梦开始的地方
--【柒】--:
激活参数大,而且DeepSeek官方算力吃紧。如果想要更快的推理速度可以去OpenRouter上看看。DeepSeek官方一直是处于一种放了权重/论文就摆烂的状态,服务炸了就修,别的不管。当然也不限制TPM和RPM啥的,所以我微调小模型时比较喜欢用DeepSeek官API去做评估
--【捌】--:
两篇文章都看了,感谢佬
--【玖】--:
感谢大佬分享。
--【拾】--:
好强好详细
--【拾壹】--:
太强了佬,掰碎了来讲。
前几天在弄 api 聚合的时候看到 Qwen 拉得稀碎的模型,顿时两眼一黑,还好今天刷到了佬的帖子!
--【拾贰】--:
感谢佬,可算弄清楚Qwen3里面几个模型的特征了
--【拾叁】--:
灯塔一样的文章
--【拾肆】--:
前排支持
--【拾伍】--:
感谢整理,太细了!
--【拾陆】--:
为啥deepseek v系列速度有点慢?不开思考,都比思其他家考模式慢了
--【拾柒】--:
看完两篇了,坐等下一篇
--【拾捌】--:
太强了佬
--【拾玖】--:
支持支持
目录帖:
简单易懂的LLM相关知识梳理 文档共建迫于项目被砍,失业赋闲在家,恰好也快过年了不想动了,想了下写点文章回馈下社区吧。 PS:如有年后Base重庆的AI/全栈/FAE岗可PM我 本文从实用角度出发,梦到哪写哪。部分八股文知识就不搬了,这里主要分享一下本人在使用各种云服务及本地部署过程中学到的知识。 这里优先介绍LLM/VLM,暂不涉及音频/视频/Omni相关模型(也可能梦到了以后补一下) 注:文章为本人手写,部分模型介绍搬运自…
本章以开源/闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。
开源模型:百花齐放
如果说商业闭源领域里牢美是老大哥,那牢中就是开源赛道上的扛把子。篇幅所限,本文只讨论2025至今热度最高的几家。当然,Meta的LLaMA也不再讨论,因为LLaMA 4很拉非常拉,只有LLaMa 3世代及其变体有一定的使用价值。
由于开源模型的参数及介绍均可以在Huggingface的Model Card及config.json中找到,这里的表格将不再赘述。
| 公司/机构 | AI 模型系列 |
|---|---|
| 深度求索 | DeepSeek系列 |
| 阿里巴巴 | Qwen系列 |
| 智谱 | GLM系列 |
| 月之暗面 | Kimi系列 |
| MiniMax | MiniMax系列 |
| 腾讯 | Hunyuan(HY)系列 |
| 小米 | Mimo系列 |
| 美团 | LongCat系列 |
| 谷歌 | Gemma系列 |
| OpenAI | GPT-OSS系列 |
DeepSeek:真金不怕火炼
其实开源模型这里东西太多了,实在是写不过来。本来想把几种模型按类别分成几大块一起讲,但DeepSeek实在太重要了。想了下,还是像ep.1-1一样拆成一节节去写吧,哪怕每小节短些。
从最早的Dense模型,再到V2 / V2.5转向MoE,最后到V3 / R1的火爆出圈,深度求索一直在认真做事。早在V2.5时期,DeepSeek就以极致性价比吸引了我——那时候还没有那么多选择,中转站也是各种掺水或者价格高昂,心黑完了。
通义千问和DeepSeek有相似之处——拥抱开源,有真本事,产品稀碎。当然千问好歹还有几个带点C端功能的入口,到了DeepSeek这就是纯纯的毛坯房,要啥没啥,只有最纯粹极致的便宜API,爱用不用。这非常败路人缘,比如某乎上随便什么人都可以出来批判一番。
DeepSeek V3 / R1及其变体大规模应用了RL及合成数据训练,能力很强。但对齐在当下的环境来看是不太够用了,那么RL的苦果就不得不吞:幻觉严重,文风放飞自我到癫狂,创意写作如同梦呓,很难相信一个致幻剂违法的国家会诞生DeepSeek这种东西。
但正如同Claude日常被各种编码模型拉出来PK军训一样,DeepSeek也日常被各种模型拉出来当Base。无论你喜欢它还是讨厌它,它就在这。大杯模型守门员,开源领域试金石;只要在几个领域能够超越DeepSeek,就能加冕登基,打不过DeepSeek就别上桌吃饭了。
2025年1月份的V3 / R1堪称LLM发癫史上最浓墨重彩的一笔。与同期的GPT / Claude家族相比,幻觉几乎高了一个量级。意外地,很多人喜欢这一版,认为它富有想象力和文学性(虽然我感觉本质上这是胡扯的另外一种高情商表达形式)。但要命的是,由于DeepSeek被神秘力量大力宣传,不少尝试接触新技术的人被幻觉狠狠地坑了一把,从此路转黑。这一切发生的有点巧,有点可惜。后续版本渐渐补全了一些能力,然后在3.1上融合了思考与非思考(同期的Qwen3家族在吃了个亏以后反而把融合思考给拆开了),但又闹出来了个极你太美事件。
3.2上启用了稀疏注意力机制并且实现了交错思考,给2025年划上了一个句号。所有人都在期待着DeepSeek V4能否王者回归,再一次狠狠地踢闭源模型的屁股。
在当下的时间点上,DeepSeek属于万金油模型,样样都能做,样样都不精。但685B的参数配上非常美丽的价格,很适合作为企业接入的选项之一。
| 模型名称 | 备注 |
|---|---|
| DeepSeek-V3 | 初代V3,发癫 |
| DeepSeek-V3-0324 | 解决了一部分发癫问题,但幻觉依旧 |
| DeepSeek-V3.1 | 融合了思考与非思考,注意存在极你太美问题 |
| DeepSeek-V3.1-Terminus | 修复极你太美 |
| DeepSeek-V3.2 | 目前最新的模型,靠DSA进一步压低推理价格 |
| DeepSeek-R1 | 初代R1,发癫 |
| DeepSeek-R1-0528 | 解决了一部分发癫问题,但幻觉依旧 |
阿里巴巴:乱拳打死老师傅
被乱拳打死的是谁呢?好难猜,肯定不是Meta吧。阿里从Qwen 2.5开始彻底发力,和当时风头正盛的LLaMA分庭抗礼。当开源爱好者们都以为Meta要憋大招时,没想到拉了坨大的,LLaMA4和LMArena一起被扫进了历史的垃圾堆(同时酷爱刷LMA的还有文心ERNIE)。但把视线再向前推一下,Qwen2世代似乎就有搞模海战术的前兆。到了Qwen2.5开始则是给出了从适合学术研究的0.5B到能够执行绝大部分日常任务的72B各种尺寸,从CPU到3090都总有一款适合你。与此同时还带来了相当够用的Qwen2.5 VL系列,结束了国模无视觉大将的时代。
很可惜,当大家翘首期盼Qwen3的时候,不出意外应该是出意外了。Qwen3初代模型对齐也出现了问题,2504被钉上了耻辱柱。然而Qwen3家族的模型给的更多更全划分更细,从0.6B到235B,Dense和MoE都有,就算捏着鼻子也得品鉴。
很快,Qwen3 2507推出了,奠定了Qwen3家族真正的基础,现在使用的通义千问3家族基本都出自这一版。
Qwen系列出色的指令遵循能力以及开源各种权重及家族工具都使得Qwen成为了开发者不得不品鉴的一环。为微调(套皮)、开发AI应用或者企业私有化部署感到烦恼?看看Qwen的Huggingface仓库找找答案吧,你想要的基本都有。但端上来的太多力,求求你饶了我吧(
- 如果有2507变体,则代指2507而非2504版本。
- 由于Qwen3家族的大语言模型实在太多,故拆分表格。
- 30B-A3B体感类似于14B Dense模型。
- Qwen3 Next很好用,是中小企业部署的绝佳选择…如果不需要VL的话。
Qwen3系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-235B-A22B-Thinking | MoE模型,思考模式,专注推理能力(很耗Token!) |
| Qwen3-235B-A22B-Instruct | MoE模型,指令微调版本(同样有输出思维链的倾向) |
| Qwen3-30B-A3B-Thinking | MoE模型,思考模式。非常适合资源有限的用户推理,激活3B就算在核显上也能跑的很快 |
| Qwen3-30B-A3B-Instruct | MoE模型,指令微调版本,同上 |
| Qwen3-32B | 密集模型,性能强于30BA3B,但Dense不适合端侧推理 |
| Qwen3-14B | 密集模型,从这里开始大部分家用显卡也能爽玩 |
| Qwen3-8B | 密集模型 |
| Qwen3-4B | 密集模型,从这里开始视作端侧推理范畴 |
| Qwen3-1.7B | 密集模型 |
| Qwen3-0.6B | 密集模型,学术研究用居多 |
Qwen3-VL系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-VL-235B-A22B-Thinking | MoE视觉语言模型,思考模式,开源视觉模的神 |
| Qwen3-VL-235B-A22B-Instruct | MoE视觉语言模型,指令版本,同上 |
| Qwen3-VL-32B-Instruct | 很少用 |
| Qwen3-VL-30B-A3B-Instruct | MoE视觉语言模型,推理飞快,也是神 |
| Qwen3-VL-8B-Instruct | 密集语言模型,实际上已经能胜任大部分任务 |
| Qwen3-VL-4B-Instruct | 很适合端侧推理 |
| Qwen3-VL-2B-Instruct | 有点小了,学术研究用居多 |
Qwen3 Coder & Next 系列:
| 模型名 | 备注 |
|---|---|
| Qwen3-Coder-480B-A35B-Instruct | 480B参数MoE代码生成模型,够用,最重要的是Qwen Coder CLI提供不要钱的。但非常烧Token,已经不如更新的GLM和MiniMax好用了 |
| Qwen3-Coder-30B-A3B-Instruct | 国企/军工码农优选,很容易就能本地部署起来 |
| Qwen3-Next-80B-A3B-Instruct | 门控注意力实现的稀疏模型,总参数80B保证了世界知识的前提上只要3B激活,非常好用 |
| Qwen3-Next-80B-A3B-Thinking | 同上,思考模式版本。本地部署再也不怕Qwen烧Token导致慢的抠脚啦,3B激活推理飞快 |
智谱、MiniMax、月之暗面:从六小龙到四小虎
为什么四小虎里只讲了这三个?以本文的讨论范围来看,阶跃星辰其实也属于路边一条级别。
2025年里这三家真可谓是猛猛发力,想通了A÷的模式其实是对的,都转头去做Coding Agent模型了。但为什么每次宣传的时候都要把Claude拉出来遛…给人一种某米某花某ov发布的时候总要蹭一下苹果的感觉。其实产品已经做的挺好了,再接再厉就是。
先说智谱,前身是THUDM,属于从LLaMA时代一路走过来的老将了。当年本地部署最早能讲明白中文的就是chatglm-6b,给人留下了深刻印象。可惜GLM时代一开始扭扭捏捏不肯开源,直到GLM4后期开始回过神来开始全面拥抱社区。GLM-4和GLM4-0414的牛刀小试给人足够好的印象,稳定低幻觉的输出非常适用于RAG场景。
在各家都间歇性拉坨大的大背景下,GLM憋了个好活,从4.5到4.7一路高歌猛进,用上了358B的MoE。当然这个尺寸基本上就跟HomeLab和小企业没缘分了,然而Coding Agent的能力突飞猛进也是事实。假如你写代码的时候不被允许使用国外大模型的话,GLM家族是非常好的选择,和MiniMax互为竞争对手。
| 模型名 | 备注 |
|---|---|
| GLM-4.5 | 358B-A32B,梦开始的地方 |
| GLM-4.5-Air | GLM-4.5精简版,106B-A12B,非常适合中小企业部署使用,四张4090美美跑量化版 |
| GLM-4.5V | 带视觉的4.5 Air,但上下文长度受限 |
| GLM-4.6 | 进一步增强了能力,相当够用 |
| GLM-4.6V | 其实就是带视觉的4.6 Air,只不过本代没出Air |
| GLM-4.7 | 最新的支持交错思考的旗舰型号 |
然后是MiniMax,跟智谱真是一对苦命鸳鸯,在港股赛跑上市,最终智谱领先一天。MiniMax在学习Claude的路上更加激进,仅用了230B参数就能够和GLM系列掰手腕,处于编码模型的T1梯队。MiniMax-M2引入了交错思考,配合Agent方面的训练,在代码工程上的能力得到了显著提升。而且由于激活参数相比GLM系列更小,在推理速度上优势尤为显著。需要注意的是,在实际工作中one shot是很难的,很多时候都需要手动测试然后提出问题再尝试修复BUG才能得到最终满意的结果,所以推理速度是很重要的一个评判指标。
此外,MiniMax的音视频合成同样性价比很高,海外业务做的不错。
| 模型名 | 备注 |
|---|---|
| MiniMax-M2 | 230B-A10B |
| MiniMax-M2.1 | 进一步增强了代码能力 |
最后是月之暗面的Kimi系列。月之暗面其实之前的底模都很一般(K1.5时代),但产品和营销都做的不错。可以说国产AI里月之暗面的产品能够跟豆包一较高下,而网络搜索效果可能还要更胜一筹。
有没有一种比DeepSeek更适合编码的DeepSeek?有的,那就是Kimi K2家族。K2在DeepSeek的架构上进行了Scaling up,用开源的1T巨模震撼了所有人的眼球。大参数量带来的泛化能力增强显而易见:情感更细腻,写代码也能够力大砖飞。后续K2趁热打铁推出了K2-Instruct-0905以进一步逼近Claude水平,还推出了带有思考模式的Kimi-K2-Thinking。够大的参数带来了更多的世界知识,不少冷门的编码场景K2也能够解决。优点说完了那缺点呢?1T巨模的计算成本实在是太高了,性价比和推理速度上是不如上面两家的。
2026.1.27:更新了Kimi K2.5,融合了思考和非思考模式,进一步强化了Agent能力,而且支持视觉了。1T巨模+视觉带来的是前端开发能力的飞跃。美国有基米,中国有Kimi!
Kimi是少有的网页比API好用的厂,网络搜索和深度研究都不错:
| 模型名 | 备注 |
|---|---|
| Kimi-K2-Instruct | 1T巨模,不带思考 |
| Kimi-K2-Instruct-0905 | 进一步增强了代码能力 |
| Kimi-K2-Thinking | 带思考的版本 |
| Kimi-K2.5 | 可以开关思考,支持视觉,K2完全体 |
腾讯、小米、美团:互联网厂赶晚集的救赎
看到其他厂做AI如火如荼,这几家也坐不住了。
腾讯和字节有点像的是,都在音视频媒体/多模态方向发力。但腾讯的LLM…就此略过,也就Hunyuan-A13B有点价值,在80B这个档可以和Qwen掰手腕。混元的3D一直做的不错。
如果小米进场,那么这个时机一定已经成熟。小米在罗福莉加入后,MiMo家族也初露峥嵘。MiMo-7B及VL变体基本就是Qwen2.5上训练得来,没什么太多的可圈可点之处。但Miloco和MiMo-V2-Flash却收获了一些好评。Miloco是在MiMo-VL基础上再次训练得来的智能家居视觉模型,小尺寸保证了私有化部署的可行性,希望视觉大模型能够给智能家居再次注入一支强心针。而MiMo-V2-Flash是一款309B-A15B的MoE模型,前DeepSeek研究员携MiMo归来挑战老东家,V我50听复仇计划?目前MiMo V2处于免费阶段,也着重宣传了编码性能,但我更看希望看到的是MiMo在Agent结合米厂的各种智能硬件的落地探索,现在AI成功落地转化的场景太少了。
| 模型名 | 备注 |
|---|---|
| Xiaomi-MiMo-VL-Miloco-7B | 视觉模型,私有化部署智能家居用 |
| MiMo-V2-Flash | 快速的编码&Agent模型 |
美团LongCat:龙猫?长猫?这个名字有点难绷。LongCat-Flash虽说叫Flash,但实际上是一款560B-A27B的大模。美团也在音视频上发力,除了大语言模型外还有生图模型以及视频模型,有点黏着Qwen贴身搏斗的感觉。只谈大模型来说,LongCat感觉平平无奇,且待后面发展。比起MiMo Flash的0.7元输入/2.1元输出来说,LongCat-Flash的5元输出就显得有些不值了。
谷歌、OpenAI:秀肌肉
俗话说,命里缺啥,名字里就得起啥,所以OpenAI不Open也非常合理。自从GPT-2后OpenAI就再也没放出LLM的权重,期间只是端出了Whisper。奥特曼在造了好几个月的势后,终于扭扭捏捏地放出了所谓堪比o3-mini的gpt-oss系列,可惜o3早已过气。而且gpt-oss真的能和o3-mini比肩吗?缺少了视觉能力、离谱的自我审查,还有着超高的幻觉,以至于LiveCodeBench上出现了gpt-oss-20b反杀gpt-oss-120b的奇观,因为120b版本的幻觉实在是太高了。
当然,事物总是有两面性的。gpt-oss的放出给了大家许多启发,比如稀疏注意力、原生MXFP4、在思考中调用工具…总之,这是一个适合研究学习用的模型,而不太适合中国应用场景下的部署使用。
| 模型名 | 备注 |
|---|---|
| gpt-oss-20b | 原生MXFP4,很小很快,处理日常任务还挺好用 |
| gpt-oss-120b | 一坨,强烈不推荐。在Antigravity里和Claude 4.5 Opus并列有一种我和科比合砍83分的美感 |
到了谷歌这里又不太一样了:Gemma家族在国外社区还是一个不错的选项。Gemma 3虽然已经较老,但27B Dense结构带视觉在某些特定场景下可能也会有不错的效果,与Qwen3-VL可以掰掰手腕。尤其需要注意的是,Gemma 3有许多变体,比如医疗领域微调的medgemma、端侧使用的t5gemma、gemma-3n等。这里仅介绍主力Gemma 3家族,对端侧推理感兴趣的可以自行了解。
Gemma 3比起Qwen 3家族的优势之一是谷歌给出了Gemma 3 QAT权重。量化感知训练版本比起传统PTQ来说,可以在量化到更低精度时保持较好的性能。这对于HomeLab玩家来说是一个好消息。如果你希望在家里部署一个性能尚可且带有视觉的大模型,你需要做出选择的就是Gemma 3还是Qwen 3。
下方是原始指令对齐权重(其他变体请在Huggingface上自行查询):
| 模型名 | 备注 |
|---|---|
| gemma-3-1b-it | - |
| gemma-3-4b-it | - |
| gemma-3-12b-it | - |
| gemma-3-27b-it | - |
--【壹】--:
太详细了佬
--【贰】--:
点赞支持
--【叁】--:
感谢大佬!
--【肆】--:
看完了,坐等下一篇
--【伍】--:
感谢佬友的文章,看起来很不错
--【陆】--:
太强了佬,太精辟了。特别是chatglm-6b,那真的是梦开始的地方
--【柒】--:
激活参数大,而且DeepSeek官方算力吃紧。如果想要更快的推理速度可以去OpenRouter上看看。DeepSeek官方一直是处于一种放了权重/论文就摆烂的状态,服务炸了就修,别的不管。当然也不限制TPM和RPM啥的,所以我微调小模型时比较喜欢用DeepSeek官API去做评估
--【捌】--:
两篇文章都看了,感谢佬
--【玖】--:
感谢大佬分享。
--【拾】--:
好强好详细
--【拾壹】--:
太强了佬,掰碎了来讲。
前几天在弄 api 聚合的时候看到 Qwen 拉得稀碎的模型,顿时两眼一黑,还好今天刷到了佬的帖子!
--【拾贰】--:
感谢佬,可算弄清楚Qwen3里面几个模型的特征了
--【拾叁】--:
灯塔一样的文章
--【拾肆】--:
前排支持
--【拾伍】--:
感谢整理,太细了!
--【拾陆】--:
为啥deepseek v系列速度有点慢?不开思考,都比思其他家考模式慢了
--【拾柒】--:
看完两篇了,坐等下一篇
--【拾捌】--:
太强了佬
--【拾玖】--:
支持支持

