DeepSeek V4 非专业解读
- 内容介绍
- 文章标签
- 相关推荐
从DeepSeek V4 个人技术前瞻继续讨论:
终于经过望眼欲穿的等待,DeepSeek-V4千呼万唤始出来,发布以后,回看此前的前瞻,还是有些出入,最期待的也最需要修正的部分是对Engram的预期。从V4技术报告来看,也许笔者的预期过于乐观,在这一代中暂时没有条件落地应用。不过条件记忆、知识检索解耦、模型内部稀疏访问等问题仍然值得长期跟踪,也许在DeepSeek V4.5出现也未可知。
回到正题,本次V4的主线围绕百万Context,并降低了训练和推理的综合成本,实实在在的体现了报告标题Towards Highly Efficient Million-Token Context Intelligence。具体参数不再赘述,报告的开篇图片就提到了在 1M context 下,V4-Pro 相比 V3.2 只需要 27% 的单Token推理FLOPs和10%的KV cache;V4-Flash 则降至 10% FLOPs 和 7% KV cache。在笔者看来,推理性价比比窗口长度本身更重要。长上下文能力的价值不只取决于最大输入长度,还取决于长输入下的单位任务成本。如此一来,交给Agent做的低难度长历程任务例如代码仓库理解、跨文档分析、多轮搜索、工具调用等,V4使得这些场景在经济上可承受。
值得一提的是,本次的发布仍然体现了DeepSeek在模型架构方面的探索和实践,V4的核心架构升级中值得一提的就是CSA/HCA混合注意力。与V3时代以来,业界祖宗之法不可变的DSA(NSA)相比,V4设计了这两种注意力机制交错使用,并加入滑窗注意力保留近期局部依赖。基本思路是把长上下文的信息访问拆开处理。远距离信息通过 HCA 的极致压缩保留全局视野,可能相关的信息通过 CSA 的稀疏选取召回,近期信息通过滑窗保持更高分辨率。这样的混合架构相比于DSA等稀疏注意力机制,等于在模型里嵌入了一个微型多级搜索引擎,对Tokens 的压缩/分块/语义化/分层检索/共享缓存做得非常精细,虽然代价是精度上的取舍。
至于架构方面,DeepSeek的看家绝活mHC已经在前瞻中提到不再赘述。
从DeepSeek V4 个人技术前瞻继续讨论:
终于经过望眼欲穿的等待,DeepSeek-V4千呼万唤始出来,发布以后,回看此前的前瞻,还是有些出入,最期待的也最需要修正的部分是对Engram的预期。从V4技术报告来看,也许笔者的预期过于乐观,在这一代中暂时没有条件落地应用。不过条件记忆、知识检索解耦、模型内部稀疏访问等问题仍然值得长期跟踪,也许在DeepSeek V4.5出现也未可知。
回到正题,本次V4的主线围绕百万Context,并降低了训练和推理的综合成本,实实在在的体现了报告标题Towards Highly Efficient Million-Token Context Intelligence。具体参数不再赘述,报告的开篇图片就提到了在 1M context 下,V4-Pro 相比 V3.2 只需要 27% 的单Token推理FLOPs和10%的KV cache;V4-Flash 则降至 10% FLOPs 和 7% KV cache。在笔者看来,推理性价比比窗口长度本身更重要。长上下文能力的价值不只取决于最大输入长度,还取决于长输入下的单位任务成本。如此一来,交给Agent做的低难度长历程任务例如代码仓库理解、跨文档分析、多轮搜索、工具调用等,V4使得这些场景在经济上可承受。
值得一提的是,本次的发布仍然体现了DeepSeek在模型架构方面的探索和实践,V4的核心架构升级中值得一提的就是CSA/HCA混合注意力。与V3时代以来,业界祖宗之法不可变的DSA(NSA)相比,V4设计了这两种注意力机制交错使用,并加入滑窗注意力保留近期局部依赖。基本思路是把长上下文的信息访问拆开处理。远距离信息通过 HCA 的极致压缩保留全局视野,可能相关的信息通过 CSA 的稀疏选取召回,近期信息通过滑窗保持更高分辨率。这样的混合架构相比于DSA等稀疏注意力机制,等于在模型里嵌入了一个微型多级搜索引擎,对Tokens 的压缩/分块/语义化/分层检索/共享缓存做得非常精细,虽然代价是精度上的取舍。
至于架构方面,DeepSeek的看家绝活mHC已经在前瞻中提到不再赘述。

