简单易懂的LLM相关知识梳理-ep.1-1 各家模型的特点-闭源篇
- 内容介绍
- 文章标签
- 相关推荐
目录帖:
简单易懂的LLM相关知识梳理 文档共建迫于项目被砍,失业赋闲在家,恰好也快过年了不想动了,想了下写点文章回馈下社区吧。 PS:如有年后Base重庆的AI/全栈/FAE岗可PM我 本文从实用角度出发,梦到哪写哪。部分八股文知识就不搬了,这里主要分享一下本人在使用各种云服务及本地部署过程中学到的知识。 这里优先介绍LLM/VLM,暂不涉及音频/视频/Omni相关模型(也可能梦到了以后补一下) 注:文章为本人手写,部分模型介绍搬运自…
本章以开源/闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。
闭源模型:一种循环
目前实现了SOTA(State of the Art,特定领域或任务中,当前的最新进展和最高水准,基本上是各家自称)的闭源模型厂主要有如下几家(豆包除外,稍后单讲):
| 公司/机构 | AI 模型系列 |
|---|---|
| OpenAI | GPT系列 |
| Google Gemini系列 | |
| Anthropic | Claude系列 |
| xAI | Grok系列 |
| 阿里巴巴 | 通义千问系列 |
| 字节跳动 | 豆包系列 |
这几家基本上每隔一段时间就宣称自己发布了最强大的xx模型,以至于形成了一种循环。当然SOTA这个词很微妙,最新最大杯的模型未必就最适合你。下面按照模型家族介绍一下本代的各种主力型号的特点(截至2026年1月4日):
OpenAI GPT:冷静的理性思考
自从迈入GPT-5时代以来,GPT系列模型就以回复简短闻名。从好的方面看,OpenAI做到了省output token(输出token数),这使得任务总体所需时间进一步得到压缩。然而代价是冷漠到近乎不近人情的回复使得创意写作用户不得不忍痛抛弃它。后续推出的编码特化模型gpt5-codex模型进一步强化了这个特征,有时候描述性文字几乎已经不能称之为人话了。好在GPT-5.2系列在一定程度上解决了这个问题,虽然比起GPT-4.5甚至GPT-4o系列模型给人在Chat上的主观感受仍有差距,但已经较为可用。
OpenAI作为LLM的领头羊,服务压力自然是很大的,无论是网页还是API都可能会有服务异常的情况。为了解决这个问题,GPT-5系列在网页端给出的解决方案是自动路由(其实就是超级降智)。然而,对于指定了特定型号的API用户来说,GPT-5系列模型的推理速度仍然显得相对较慢。
说完了缺点,那么剩下的基本上全是优点。回复简短意味着完成同等任务下所需tokens更少,冷静的理性思考带给人一种指哪打哪的感觉——不废话,just do it。比起GPT-4时代的人味儿来说,GPT-5更像一名理工男。当然,它是一名后端理工男,在审美上未必有多好的品味。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| GPT-5.2 Thinking | gpt-5.2(gpt-5.2-2025-12-11) |
400K | 128K | 最高推理强度,支持 reasoning 参数(大杯) |
| GPT-5.2 Pro | gpt-5.2-pro |
400K | 128K | 企业级最高准确度,支持 xhigh reasoning(超大杯) |
| GPT-5.2 Chat (Instant) | gpt-5.2-chat-latest |
128K | 16K | ChatGPT“GPT-5.2 即时”模式,延迟最低(其实就是小杯,很蠢) |
| GPT-5.2 (base) | gpt-5.2 |
400K | 128K | 通用旗舰版,默认 reasoning=medium(中杯) |
| GPT-5.2-Codex | gpt-5.2-codex |
400K | 128K | 代理式编码专用,支持上下文压缩与视觉输入 |
| GPT-5.1-Codex-Max | gpt-5.1-codex-max |
400K | 128K | 支持“压缩”技术,可跨多窗口连贯处理数百万 tokens,专为长时间、项目级编码任务设计 |
这里需要特别注意的是,gpt-5.2-codex并非代码万灵药。如果你不太会写prompt或者这个工程需要范围更广的探索思考,那么gpt-5.2可能会比codex变体好用些。codex更突出指哪打哪的能力,而gpt-5.2会主动帮你多想些。换句话说,改bug用gpt-5.2-codex,新开工程/模块用gpt-5.2。推荐写后端或复杂的前端逻辑时使用GPT系列模型。
Google Gemini:多模态和世界知识之王
牢谷坐拥无尽的网络资源宝库以及Deepmind+TPU的神秘力量加持,尽管在LLM时代赶了个晚集,但从Gemini 2.0开始一路猛追,到了2.5时代已经是妥妥的御三家之一。Gemini的多模态能力令人惊叹,Pro系列的世界知识更是让人折服。比起GPT来说,Gemini更像一名文科生:大参数带来的丰富世界知识给了它更强的文学理解能力,思考之细腻和情感共鸣能力使得它成为创意写作的最优选。当接入Chatbot的时候,你甚至可能没法分清它到底是AI还是人——太能接梗了。
大家都不知道Gemini Pro系列的参数到底有多大,目前普遍认为1T以上。然而推理速度比起其他各家大参数模型来说又快的离谱,疑似Jeff Dean在机房里手敲(其实应该是TPU的特点所致)。总之,如果你想选择一款有超强的世界知识并且对推理速度有一定要求的模型,那么Gemini系列是毋庸置疑的选择。
Gemini 3.0 Pro从内部测试阶段就不断炸场,多模态+大参数写出的前端效果惊艳了所有关注AI前沿动向的人。尽管Gemini 3.0 Pro存在较为严重的长上下文幻觉问题,但瑕不掩瑜,它依然是现在最适合前端的模型。
Gemini 3.0 Flash推出后,甚至神秘地实现了某种程度上对Pro的反杀,几乎和Pro一样丰富的世界知识和更好的编码能力。下克上?搞不懂牢谷。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Gemini 3 Pro | gemini-3-pro |
1000K (1M) | 64K | 旗舰模型。最强多模态推理与编码能力,支持 high 深度思维模式。前端很强非常强!但受限于长上下文幻觉,后端稀烂(相比其他两家) |
| Gemini 3 Flash | gemini-3-flash |
1000K (1M) | 64K | 速度旗舰。专为 Agent 设计,支持 minimal/medium 等多级思维调节。Flash反杀Pro!大部分搬砖的活计用Flash就够了,速度飞快。 |
| Gemini 2.5 Pro | gemini-2.5-pro |
2000K (2M) | 64K | 2.5 世代旗舰。具备极强的长文本召回能力。(前面是官方说法,实际上各家长文本都一坨) |
| Gemini 2.5 Flash | gemini-2.5-flash |
1000K (1M) | 64K | 2.5 世代均衡版。高吞吐量,默认支持长上下文处理。 |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
1000K (1M) | 64K | 极致性价比。针对极低延迟任务优化,是目前最廉价的百万上下文模型。 |
Anthropic Claude:最均衡的编码代理模型
Anthropic,又称A÷ / A畜,大家很熟悉了,神一样的Coding Agent,翔一样的口碑和服务可用性。抛开立场不谈,最早的Claude模型以创意写作闻名,比起同期的GPT-3.5来说回答更有人味。后来Claude率先扩展了长上下文窗口以及STEM能力,走向了编码特化的不归路。到了Claude 3时代开始就是彻头彻尾的Coding模型了,直到现在的Claude 4.5成为了最均衡的编码代理模型——如果你想前后端一把抓,选它准没错。强大的规划能力能够给出更适合工程上的方案,在各种场景下都能很好的完成目标。跑分没赢过,体验没输过。尽管日常处于即将被超越的状态,但还没被超越不是吗?(对标苹果!)
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Claude 4.5 Opus | claude-4-5-opus-20251124 |
200K | 64K | 支持 effort 参数调节推理强度。编码与科研任务首选(超大杯)(反重力反代优选) |
| Claude 4.5 Sonnet | claude-4-5-sonnet-20250929 |
200K / 1000K* | 64K | 专为复杂 Agent 与项目级代码设计,性能超越早期 Opus 4(中杯)(对于反重力用户来说,有Opus谁用Sonnet) |
| Claude 4.5 Haiku | claude-4-5-haiku-20251014 |
200K | 64K | 路边一条,官方说具备 Sonnet 4 级别的性能,但被Gemini Flash家族打出shi来了 |
注:只有官方Max订阅才有1000K上下文,大部分渠道都是200K的上下文,比如反重力逆向或Kiro逆向。
xAI Grok:力大砖飞,以及瑟瑟
马斯克也许缺乏品味,但他足够有钱。Grok好不好用先放一边,超大规模的显卡集群是实打实存在的。这个系列一直秉持力大砖飞的原则,猛堆参数。迫于Scaling law的存在,就算是几百头猪,炼进Transformer里也能出些成果了罢。
Grok在某些领域有着和Gemini系列相似的特性:参数够大,很适合创意写作任务。Grok 4家族拥有不俗的吐槽能力,在对齐上比起a helpful assistant来说更像一名沙雕网友。而且Grok背靠X(aka Twitter),也有着丰富的语料及不错的搜索功能。对于老外来说,Grok简直是全自动开盒器(is that true ? )
Grok系列另一个令人津津乐道的地方就是极低的审查下限。在各家API中,Grok / Google Vertex / DeepSeek是审查力度相对较低的。但到了网页端上Grok也保持极低的审查下限就很离谱,当然考虑到X网页端上你依然可以畅爽NSFW…好吧,Grok适合搞瑟瑟是从娘胎里就带出来的本事。无需破甲,无需诱导,很黄很暴力。酒馆和各种文字扮演游戏的常客。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Grok 4 Heavy (SuperGrok) | grok-4-heavy |
256K | 8K - 16K | 多智能体协作系统,通过并行推理验证结果,推理强度最高(超大杯) |
| Grok 4.1 | grok-4.1 |
256K | 16K | 2025年底旗舰,主打高情商 (EQ) 与低幻觉率,创意写作能力很好(大杯) |
| Grok 4 | grok-4 |
256K | 8K | 2025年中发布的标准旗舰,原生支持多模态推理与实时 X 搜索 |
| Grok 4.1 Fast (Long) | grok-4.1-fast |
2,000K | 16K | 超长上下文版,支持 200 万 token,类似Gemini Flash(中杯) |
| Grok 4 Fast (Instant) | grok-4-fast |
2,000K | 30K | 极速/高性价比版,支持 reasoning 切换(可关闭推理以获得极低延迟,类似Gemini Flash Lite,小杯) |
| Grok Code Fast 1 | grok-code-fast-1 |
256K | 16K | 马斯克的钞能力,在一众编程模型当中显得平平无奇,但不要钱不要钱不要钱!速度很快,质量一般,体感跟Gemini 2.5 Flash差不多的性能,但在各种 Vibe Coding 客户端里都作为免费选项出现。 |
阿里 通义千问 & 字节跳动 豆包:能力先行还是产品先行?
阿里作为目前开源界当之无愧的扛把子,从Meta手中接过了开源的大旗。r/LocalLlama如今已是r/LocalQwen的形状了。Qwen家族分为开源模型和闭源模型两种。除了每代的超大杯(通义千问Max)为闭源外,其他商业API均能找到对应的类似开源型号。通义千问的特点是极强的指令遵循能力和稀烂的产品。
Qwen家族的模型在输出上总感觉缺了点味道。它不像GPT那样冷静简洁,不像Gemini那样细腻有人味,但也不像DeepSeek R1 0120那样放飞自我。很怪,AI味很重,在大规模使用RL训练的Qwen3世代这个特点尤为显著。国模的通病之一在Qwen上有显著体现:思考时非常消耗Token,甚至在Instruct模型上模型倾向于输出思维链,导致最终完成复杂任务时所耗Token相对较高。
但从另一个方面上来讲,Qwen作为国内AI的T0选手,其模型非常适合国内企业落地开发使用:性价比适中、模型选择丰富、较好的服务稳定性,还有强大的指令遵循能力可以减轻不少开发难度。逻辑能力也相当不错。
阿里系除了主打的阿里云百炼平台提供的通义千问服务外,还有面向开发者的modelscope(魔搭)、心流团队的iFlow、面向C端的蚂蚁灵光系列,主打一个养蛊和乱拳打死老师傅。以下表格主要介绍闭源的通义千问3家族:
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Qwen3-Max | qwen3-max |
256K | 64K | 超大杯。非思考模式输出可达 64K,思考模式输出 32K。 |
| Qwen-Plus | qwen-plus |
1M | 32K | 大杯。百万级长文本支持,适合复杂任务推理。 |
| Qwen-Flash | qwen-flash |
1M | 32K | 中杯。兼顾百万级上下文与极速响应速度。 |
| Qwen3-VL-Plus | qwen3-vl-plus |
256K | 32K | 视觉大杯。支持高分辨率,单图最大 16,384 tokens。 |
| Qwen3-VL-Flash | qwen3-vl-flash |
256K | 32K | 视觉中杯。支持视觉推理模式,单图上限同 Plus。 |
| Qwen-Long | qwen-long |
10M | 32K | 长文本专家。支持 1000 万 token 超长输入。 |
| Qwen3-Coder-Plus | qwen3-coder-plus |
1M | 64K | 编码特化大杯。专为复杂编程设计,支持百万级上下文与 64K 超长输出。 |
| Qwen3-Coder-Flash | qwen3-coder-flash |
1M | 64K | 编码特化小杯。高效处理编程任务,具备极高的响应速度。 |
把目光转回到字节的豆包家族。阿里和字节基本上是截然相反的——字节在LLM上的开源很少,可用的只有Seed-OSS-36B,豆包底模也一直很一般。然而豆包的产品做的很好,在国内C端市占率遥遥领先。这当然得益于他们深耕多模态,但这可能和集团底色也有一定关系。如果你手机里需要一款不需要爬墙就很好用的AI应用,那我想应该是豆包没错了。但使用LLM API?除非你的公司疯狂迷恋Coze。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Doubao-Seed-1.8 | doubao-seed-1-8-251215 |
256K | 32K | 大杯。支持深度思考、多模态理解与工具调用,最长思维链达 64K。 |
| Doubao-Seed-Code | doubao-seed-code-preview-251028 |
256K | 32K | 编码特化。专为编程场景设计,支持深度思考与多模态理解。 |
| Doubao-Seed-Lite | doubao-seed-1-6-lite-251015 |
256K | 32K | 中杯。兼顾生成效率与推理能力,支持结构化输出。 |
| Doubao-Seed-Flash | doubao-seed-1-6-flash-250828 |
256K | 32K | 小杯。具备视觉定位能力,适用于高频多模态交互。 |
| Doubao-Seed-Vision | doubao-seed-1-6-vision-250815 |
256K | 32K | 视觉中杯(也可能是大杯?)。侧重 GUI 任务与复杂多模态理解。 |
--【壹】--:
我帮你放回来了
--【贰】--:
没有LLM生成内容,已经在目录中声明
--【叁】--:
笔误,已改
--【肆】--:
抱歉!点错了
--【伍】--:
被人编辑了,我在找稿子。。。
--【陆】--:
对我来说,国外的ai直接看写代码能力,国内的看各家ai的app做的如何。
--【柒】--:
谢谢分享,注意LLM生成的截图
--【捌】--:
感谢分享,太详细了
--【玖】--:
感谢分享
--【拾】--:
先赞后看
--【拾壹】--:
何意味啊
--【拾贰】--:
嗯,这个确实没有
--【拾叁】--:
--【拾肆】--:
文章呢?是不是有人删除了
--【拾伍】--:
感谢,分析的明了
--【拾陆】--:
中间支持
--【拾柒】--:
哪位老哥改到主帖了
--【拾捌】--:
image801×505 57.9 KB
opus没有1M上下文吧
--【拾玖】--:
hhh,佬的文字确实有一股很重的AI味,我也想有像佬一样条理清晰的语言表达能力
目录帖:
简单易懂的LLM相关知识梳理 文档共建迫于项目被砍,失业赋闲在家,恰好也快过年了不想动了,想了下写点文章回馈下社区吧。 PS:如有年后Base重庆的AI/全栈/FAE岗可PM我 本文从实用角度出发,梦到哪写哪。部分八股文知识就不搬了,这里主要分享一下本人在使用各种云服务及本地部署过程中学到的知识。 这里优先介绍LLM/VLM,暂不涉及音频/视频/Omni相关模型(也可能梦到了以后补一下) 注:文章为本人手写,部分模型介绍搬运自…
本章以开源/闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。
闭源模型:一种循环
目前实现了SOTA(State of the Art,特定领域或任务中,当前的最新进展和最高水准,基本上是各家自称)的闭源模型厂主要有如下几家(豆包除外,稍后单讲):
| 公司/机构 | AI 模型系列 |
|---|---|
| OpenAI | GPT系列 |
| Google Gemini系列 | |
| Anthropic | Claude系列 |
| xAI | Grok系列 |
| 阿里巴巴 | 通义千问系列 |
| 字节跳动 | 豆包系列 |
这几家基本上每隔一段时间就宣称自己发布了最强大的xx模型,以至于形成了一种循环。当然SOTA这个词很微妙,最新最大杯的模型未必就最适合你。下面按照模型家族介绍一下本代的各种主力型号的特点(截至2026年1月4日):
OpenAI GPT:冷静的理性思考
自从迈入GPT-5时代以来,GPT系列模型就以回复简短闻名。从好的方面看,OpenAI做到了省output token(输出token数),这使得任务总体所需时间进一步得到压缩。然而代价是冷漠到近乎不近人情的回复使得创意写作用户不得不忍痛抛弃它。后续推出的编码特化模型gpt5-codex模型进一步强化了这个特征,有时候描述性文字几乎已经不能称之为人话了。好在GPT-5.2系列在一定程度上解决了这个问题,虽然比起GPT-4.5甚至GPT-4o系列模型给人在Chat上的主观感受仍有差距,但已经较为可用。
OpenAI作为LLM的领头羊,服务压力自然是很大的,无论是网页还是API都可能会有服务异常的情况。为了解决这个问题,GPT-5系列在网页端给出的解决方案是自动路由(其实就是超级降智)。然而,对于指定了特定型号的API用户来说,GPT-5系列模型的推理速度仍然显得相对较慢。
说完了缺点,那么剩下的基本上全是优点。回复简短意味着完成同等任务下所需tokens更少,冷静的理性思考带给人一种指哪打哪的感觉——不废话,just do it。比起GPT-4时代的人味儿来说,GPT-5更像一名理工男。当然,它是一名后端理工男,在审美上未必有多好的品味。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| GPT-5.2 Thinking | gpt-5.2(gpt-5.2-2025-12-11) |
400K | 128K | 最高推理强度,支持 reasoning 参数(大杯) |
| GPT-5.2 Pro | gpt-5.2-pro |
400K | 128K | 企业级最高准确度,支持 xhigh reasoning(超大杯) |
| GPT-5.2 Chat (Instant) | gpt-5.2-chat-latest |
128K | 16K | ChatGPT“GPT-5.2 即时”模式,延迟最低(其实就是小杯,很蠢) |
| GPT-5.2 (base) | gpt-5.2 |
400K | 128K | 通用旗舰版,默认 reasoning=medium(中杯) |
| GPT-5.2-Codex | gpt-5.2-codex |
400K | 128K | 代理式编码专用,支持上下文压缩与视觉输入 |
| GPT-5.1-Codex-Max | gpt-5.1-codex-max |
400K | 128K | 支持“压缩”技术,可跨多窗口连贯处理数百万 tokens,专为长时间、项目级编码任务设计 |
这里需要特别注意的是,gpt-5.2-codex并非代码万灵药。如果你不太会写prompt或者这个工程需要范围更广的探索思考,那么gpt-5.2可能会比codex变体好用些。codex更突出指哪打哪的能力,而gpt-5.2会主动帮你多想些。换句话说,改bug用gpt-5.2-codex,新开工程/模块用gpt-5.2。推荐写后端或复杂的前端逻辑时使用GPT系列模型。
Google Gemini:多模态和世界知识之王
牢谷坐拥无尽的网络资源宝库以及Deepmind+TPU的神秘力量加持,尽管在LLM时代赶了个晚集,但从Gemini 2.0开始一路猛追,到了2.5时代已经是妥妥的御三家之一。Gemini的多模态能力令人惊叹,Pro系列的世界知识更是让人折服。比起GPT来说,Gemini更像一名文科生:大参数带来的丰富世界知识给了它更强的文学理解能力,思考之细腻和情感共鸣能力使得它成为创意写作的最优选。当接入Chatbot的时候,你甚至可能没法分清它到底是AI还是人——太能接梗了。
大家都不知道Gemini Pro系列的参数到底有多大,目前普遍认为1T以上。然而推理速度比起其他各家大参数模型来说又快的离谱,疑似Jeff Dean在机房里手敲(其实应该是TPU的特点所致)。总之,如果你想选择一款有超强的世界知识并且对推理速度有一定要求的模型,那么Gemini系列是毋庸置疑的选择。
Gemini 3.0 Pro从内部测试阶段就不断炸场,多模态+大参数写出的前端效果惊艳了所有关注AI前沿动向的人。尽管Gemini 3.0 Pro存在较为严重的长上下文幻觉问题,但瑕不掩瑜,它依然是现在最适合前端的模型。
Gemini 3.0 Flash推出后,甚至神秘地实现了某种程度上对Pro的反杀,几乎和Pro一样丰富的世界知识和更好的编码能力。下克上?搞不懂牢谷。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Gemini 3 Pro | gemini-3-pro |
1000K (1M) | 64K | 旗舰模型。最强多模态推理与编码能力,支持 high 深度思维模式。前端很强非常强!但受限于长上下文幻觉,后端稀烂(相比其他两家) |
| Gemini 3 Flash | gemini-3-flash |
1000K (1M) | 64K | 速度旗舰。专为 Agent 设计,支持 minimal/medium 等多级思维调节。Flash反杀Pro!大部分搬砖的活计用Flash就够了,速度飞快。 |
| Gemini 2.5 Pro | gemini-2.5-pro |
2000K (2M) | 64K | 2.5 世代旗舰。具备极强的长文本召回能力。(前面是官方说法,实际上各家长文本都一坨) |
| Gemini 2.5 Flash | gemini-2.5-flash |
1000K (1M) | 64K | 2.5 世代均衡版。高吞吐量,默认支持长上下文处理。 |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
1000K (1M) | 64K | 极致性价比。针对极低延迟任务优化,是目前最廉价的百万上下文模型。 |
Anthropic Claude:最均衡的编码代理模型
Anthropic,又称A÷ / A畜,大家很熟悉了,神一样的Coding Agent,翔一样的口碑和服务可用性。抛开立场不谈,最早的Claude模型以创意写作闻名,比起同期的GPT-3.5来说回答更有人味。后来Claude率先扩展了长上下文窗口以及STEM能力,走向了编码特化的不归路。到了Claude 3时代开始就是彻头彻尾的Coding模型了,直到现在的Claude 4.5成为了最均衡的编码代理模型——如果你想前后端一把抓,选它准没错。强大的规划能力能够给出更适合工程上的方案,在各种场景下都能很好的完成目标。跑分没赢过,体验没输过。尽管日常处于即将被超越的状态,但还没被超越不是吗?(对标苹果!)
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Claude 4.5 Opus | claude-4-5-opus-20251124 |
200K | 64K | 支持 effort 参数调节推理强度。编码与科研任务首选(超大杯)(反重力反代优选) |
| Claude 4.5 Sonnet | claude-4-5-sonnet-20250929 |
200K / 1000K* | 64K | 专为复杂 Agent 与项目级代码设计,性能超越早期 Opus 4(中杯)(对于反重力用户来说,有Opus谁用Sonnet) |
| Claude 4.5 Haiku | claude-4-5-haiku-20251014 |
200K | 64K | 路边一条,官方说具备 Sonnet 4 级别的性能,但被Gemini Flash家族打出shi来了 |
注:只有官方Max订阅才有1000K上下文,大部分渠道都是200K的上下文,比如反重力逆向或Kiro逆向。
xAI Grok:力大砖飞,以及瑟瑟
马斯克也许缺乏品味,但他足够有钱。Grok好不好用先放一边,超大规模的显卡集群是实打实存在的。这个系列一直秉持力大砖飞的原则,猛堆参数。迫于Scaling law的存在,就算是几百头猪,炼进Transformer里也能出些成果了罢。
Grok在某些领域有着和Gemini系列相似的特性:参数够大,很适合创意写作任务。Grok 4家族拥有不俗的吐槽能力,在对齐上比起a helpful assistant来说更像一名沙雕网友。而且Grok背靠X(aka Twitter),也有着丰富的语料及不错的搜索功能。对于老外来说,Grok简直是全自动开盒器(is that true ? )
Grok系列另一个令人津津乐道的地方就是极低的审查下限。在各家API中,Grok / Google Vertex / DeepSeek是审查力度相对较低的。但到了网页端上Grok也保持极低的审查下限就很离谱,当然考虑到X网页端上你依然可以畅爽NSFW…好吧,Grok适合搞瑟瑟是从娘胎里就带出来的本事。无需破甲,无需诱导,很黄很暴力。酒馆和各种文字扮演游戏的常客。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Grok 4 Heavy (SuperGrok) | grok-4-heavy |
256K | 8K - 16K | 多智能体协作系统,通过并行推理验证结果,推理强度最高(超大杯) |
| Grok 4.1 | grok-4.1 |
256K | 16K | 2025年底旗舰,主打高情商 (EQ) 与低幻觉率,创意写作能力很好(大杯) |
| Grok 4 | grok-4 |
256K | 8K | 2025年中发布的标准旗舰,原生支持多模态推理与实时 X 搜索 |
| Grok 4.1 Fast (Long) | grok-4.1-fast |
2,000K | 16K | 超长上下文版,支持 200 万 token,类似Gemini Flash(中杯) |
| Grok 4 Fast (Instant) | grok-4-fast |
2,000K | 30K | 极速/高性价比版,支持 reasoning 切换(可关闭推理以获得极低延迟,类似Gemini Flash Lite,小杯) |
| Grok Code Fast 1 | grok-code-fast-1 |
256K | 16K | 马斯克的钞能力,在一众编程模型当中显得平平无奇,但不要钱不要钱不要钱!速度很快,质量一般,体感跟Gemini 2.5 Flash差不多的性能,但在各种 Vibe Coding 客户端里都作为免费选项出现。 |
阿里 通义千问 & 字节跳动 豆包:能力先行还是产品先行?
阿里作为目前开源界当之无愧的扛把子,从Meta手中接过了开源的大旗。r/LocalLlama如今已是r/LocalQwen的形状了。Qwen家族分为开源模型和闭源模型两种。除了每代的超大杯(通义千问Max)为闭源外,其他商业API均能找到对应的类似开源型号。通义千问的特点是极强的指令遵循能力和稀烂的产品。
Qwen家族的模型在输出上总感觉缺了点味道。它不像GPT那样冷静简洁,不像Gemini那样细腻有人味,但也不像DeepSeek R1 0120那样放飞自我。很怪,AI味很重,在大规模使用RL训练的Qwen3世代这个特点尤为显著。国模的通病之一在Qwen上有显著体现:思考时非常消耗Token,甚至在Instruct模型上模型倾向于输出思维链,导致最终完成复杂任务时所耗Token相对较高。
但从另一个方面上来讲,Qwen作为国内AI的T0选手,其模型非常适合国内企业落地开发使用:性价比适中、模型选择丰富、较好的服务稳定性,还有强大的指令遵循能力可以减轻不少开发难度。逻辑能力也相当不错。
阿里系除了主打的阿里云百炼平台提供的通义千问服务外,还有面向开发者的modelscope(魔搭)、心流团队的iFlow、面向C端的蚂蚁灵光系列,主打一个养蛊和乱拳打死老师傅。以下表格主要介绍闭源的通义千问3家族:
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Qwen3-Max | qwen3-max |
256K | 64K | 超大杯。非思考模式输出可达 64K,思考模式输出 32K。 |
| Qwen-Plus | qwen-plus |
1M | 32K | 大杯。百万级长文本支持,适合复杂任务推理。 |
| Qwen-Flash | qwen-flash |
1M | 32K | 中杯。兼顾百万级上下文与极速响应速度。 |
| Qwen3-VL-Plus | qwen3-vl-plus |
256K | 32K | 视觉大杯。支持高分辨率,单图最大 16,384 tokens。 |
| Qwen3-VL-Flash | qwen3-vl-flash |
256K | 32K | 视觉中杯。支持视觉推理模式,单图上限同 Plus。 |
| Qwen-Long | qwen-long |
10M | 32K | 长文本专家。支持 1000 万 token 超长输入。 |
| Qwen3-Coder-Plus | qwen3-coder-plus |
1M | 64K | 编码特化大杯。专为复杂编程设计,支持百万级上下文与 64K 超长输出。 |
| Qwen3-Coder-Flash | qwen3-coder-flash |
1M | 64K | 编码特化小杯。高效处理编程任务,具备极高的响应速度。 |
把目光转回到字节的豆包家族。阿里和字节基本上是截然相反的——字节在LLM上的开源很少,可用的只有Seed-OSS-36B,豆包底模也一直很一般。然而豆包的产品做的很好,在国内C端市占率遥遥领先。这当然得益于他们深耕多模态,但这可能和集团底色也有一定关系。如果你手机里需要一款不需要爬墙就很好用的AI应用,那我想应该是豆包没错了。但使用LLM API?除非你的公司疯狂迷恋Coze。
| 模型名称 | 模型 ID | 上下文长度 | 最大输出长度 | 备注 |
|---|---|---|---|---|
| Doubao-Seed-1.8 | doubao-seed-1-8-251215 |
256K | 32K | 大杯。支持深度思考、多模态理解与工具调用,最长思维链达 64K。 |
| Doubao-Seed-Code | doubao-seed-code-preview-251028 |
256K | 32K | 编码特化。专为编程场景设计,支持深度思考与多模态理解。 |
| Doubao-Seed-Lite | doubao-seed-1-6-lite-251015 |
256K | 32K | 中杯。兼顾生成效率与推理能力,支持结构化输出。 |
| Doubao-Seed-Flash | doubao-seed-1-6-flash-250828 |
256K | 32K | 小杯。具备视觉定位能力,适用于高频多模态交互。 |
| Doubao-Seed-Vision | doubao-seed-1-6-vision-250815 |
256K | 32K | 视觉中杯(也可能是大杯?)。侧重 GUI 任务与复杂多模态理解。 |
--【壹】--:
我帮你放回来了
--【贰】--:
没有LLM生成内容,已经在目录中声明
--【叁】--:
笔误,已改
--【肆】--:
抱歉!点错了
--【伍】--:
被人编辑了,我在找稿子。。。
--【陆】--:
对我来说,国外的ai直接看写代码能力,国内的看各家ai的app做的如何。
--【柒】--:
谢谢分享,注意LLM生成的截图
--【捌】--:
感谢分享,太详细了
--【玖】--:
感谢分享
--【拾】--:
先赞后看
--【拾壹】--:
何意味啊
--【拾贰】--:
嗯,这个确实没有
--【拾叁】--:
--【拾肆】--:
文章呢?是不是有人删除了
--【拾伍】--:
感谢,分析的明了
--【拾陆】--:
中间支持
--【拾柒】--:
哪位老哥改到主帖了
--【拾捌】--:
image801×505 57.9 KB
opus没有1M上下文吧
--【拾玖】--:
hhh,佬的文字确实有一股很重的AI味,我也想有像佬一样条理清晰的语言表达能力

