DeepSeek V4 个人技术前瞻
- 内容介绍
- 文章标签
- 相关推荐
前言
最近看到有不少佬友在讨论DeepSeek,有佬说目前DeepSeek已经完全掉队、无法与主流梯队竞争的,也有对v4望眼欲穿的,忍不住写了一些个人理解,不过考虑到笔者才疏学浅,所以抛砖引玉一下,希望能引发更多讨论,也衷心希望DeepSeek-V4能带给我们更多惊喜。
本文同步自DeepSeek-V4 前瞻,转载请声明原创。
自2025年春节DeepSeek-R1的论文爆火以后,Deepseek不仅为这个世界贡献了RL路线的推理模型技术方案,更是以其低廉的模型训练成本,震惊了当下的大模型业界。而今距离石破天惊已然过了一个春秋,回顾这一年里,不仅各家厂商如雨后春笋般推出了众多优秀模型,更有ClaudeCode引领的Agentic Task应用范式迭代。闭源模型有御三家激烈竞争,GPT-5 Pro、Claude Opus 4.6和Gemini 3.1 Pro各自留下了浓墨重彩,国内的Kimi-2.5/GLM-5/MiniMax-2.5也不遑多让,Qwen 3.5更是可谓挑起了开源模型的大梁。而在此风云下,DeepSeek V3.2系列固然让人看到不少亮点,但是也对V4抱有更多期待。那么本文就以近期DeepSeek-AI的多篇研究工作入手,对即将到来的新一代基模进行预测,笔者才学有限,如有谬误之处还请不吝指出。
为了不至于让本文显得是对论文的堆砌总结,不按照论文发表时间进行而是从架构、训练、推理部署乃至应用特化等角度进行分析。如果说最让笔者报以期待的,当仁不让的就是Engram这篇论文中提到的条件记忆模块,这篇由梁文峰署名的工作提出了一种新的大模型稀疏性维度。众所周知Transformer架构自诞生以来就受限于其缺乏原生的知识检索原语,对于海量的事实性信息LLM被迫依赖FFN模块的静态模式重构,在浅层网络中消耗了极其宝贵的有效深度,挤占了整体模型的推理算力容量。而去年一年大行其道的MoE系统确实能够扩展容量并减少推理压力,但是这种条件激活是有代价的。Engram模块则是通过分词器压缩将输入序列进行浓缩并提取其上下文特征,利用多头哈希将压缩的上下文映射到外部Embedding表;这样则实现了一个确定性寻址,能够在常数时间复杂度完成条件记忆块的加载,再与当前上下文进行动态融合。这种架构解耦了知识检索与动态推理,不仅仅在知识检索类benchmark获得了显著提升,也在通用推理等领域带来了收益,说明Engram机制能有效优化早期层的可用深度。(代价是什么呢?通过内存和储存系统来置换算力会导致存储设备更加昂贵)
其次是mHc这篇论文中的流型约束超连接范式,由于时下的LLM早就不满足于标准残差连接而是转而使用Hyper-Connections范式,通过大幅扩展残差流的宽度并引入多样化的跳连接模式换取模型性能提升,但是这种HC破坏了标准残差连接的恒等映射,可能导致训练时出现Loss Spikes,限制模型的Scale Up。而DeepSeek提出的mHC就是针对这个问题,通过严格约束的流形空间保证了残差连接空间的可控,在V3的预训练过程中,DeepSeek团队就提出过从未经历任何不可恢复的Loss Spikes,这一点在训练时具有莫大的优势。
除了底层架构的变化以外,最近还有两篇Dual系工作,分别是DualPipe和DualPath,由于笔者在推理infrastructure方面的基础实在是薄弱不敢贻笑大方,因此简要提一下文章中给出的优势。前者DualPipe是针对GPU集群通信的流水线调度,构建细粒度的内核,将传统的单一前向或后向块(Chunk)进一步分解为四个执行阶段:注意力计算(Attention)、跨设备调度通信(All-to-all dispatch)、多层感知机计算(MLP)以及跨设备结果合并通信(All-to-all combine)。配合微批次馈入,降低了流水线并行的气泡开销,提高训练过程的能效比和性价比。后者DualPath针对推理时存储I/O约束进行优化,在现代LLM部署中,尤其是当下的Agentic Task任务范式,包含了多轮对话与工具调用,每次的模型交互可能User Input只新增数百Token,但整个上下文会急速膨胀,目前业界主要采用“预填充-解码分离”架构,将PE和DE进行物理隔离。而实际上,在有KV-Cache的极高命中率场景中,GPU算力并非成本,如何将KV-Cache从持久化存储层如NVMe SSD加载回HBM成了IO Bound,现有的PD分离架构反而导致了资源错配。而DualPath引入双路KV-Cache加载机制,分别在PE/DE中增加了Buffer,利用全局的调度进行双路IO,再利用高带宽的网络(如InfiniBand或RoCE)从DE发送至PE节点。在这种方式的加持下,DualPath能将在线并发吞吐量平均提升1.96倍。笔者认为这也是近期DeepSeek在官方服务与V4 Lite中加入1M上下文支持的底气。
其他方面,近期V4 Lite版本的NDA测试中,传出Non-Thinking Mode性能超越了V3.2 Thinking Mode,合理认为Deepseek将早期的R1显示推理链已经内化到了V4的前向参数中。以及,据传V4 Lite是原生多模态,结合官方最近在DeepSeek-OCR 2上的工作,其图像空间理解能力也有较大提升,当然本段信息均无可靠官方背书,只是笔者猜测。
综合来看,本次V4最让笔者期待的是Engram加持下的Context处理方式和DualPath带来的推理吞吐量提升,这两者在当下的Agentic AI时代具有莫大意义,也衷心希望在不响这么久以后,DeepSeek能给我们带来更多惊喜。
网友解答:--【壹】--:
写的真好,通过DeepSeek目前公开的论文来看,应该是解决了推理速度和部署成本的问题,简直是完美
--【贰】--:
dualpath那篇我看的是很震惊能极大提高token的吞吐的同时不会为了求快导致模型输出质量下降
--【叁】--:
给佬加了原创标签
--【肆】--: x1a0y4o:
Qwen 3.5 更是可谓挑起了开源模型的大梁
qwen 的关键成员离职了,未来还会开源吗
不过如果加入了 deepseek 那我没有意见
--【伍】--:
感谢感谢,我自己都忘记了
--【陆】--:
好期待呀
--【柒】--:
对RL这块我不能说有太深入的认识,至于Model-based路线前景需要结合应用对象来看,从dreamer系列的成功我认为还是大有可为的
--【捌】--:
Qwen3.5系列足够优秀,感觉开源社区可以玩一年这个系列的模型,下一步就看DeepSeek的了,如果v4也足够优秀的话那就太棒了
--【玖】--:
是的,这次Qwen3.5的27B dense模型给了最大的惊喜,在去年MoE大行其道的情况下,还能有如此出色的性能表现,击败一众70-80b模型,确实令人印象深刻。至于Qwen的小模型,可以说从2.5以来就支撑了CS研究领域的小半壁江山
2025-2026年的HF 7692 篇 AI 论文,Qwen 是无可争议的 open model 第一名。
41% 的论文使用了 Qwen 。
在 Qwen3 发布的2025年五月,每两篇论文就有一篇使用了 Qwen 。
在全年,每月产出的 AI 论文,至少30% 使用 Qwen。
--【拾】--:
哈哈因为本人语文一向不怎么好,所以只能模仿一下其他人的写作风格。相互交流,大家对Deepseek都抱有很大期望嘛
--【拾壹】--:
目前来看离职的政治斗争成分居多,未来qwen系列开源前景我个人抱有悲观态度。至于下家,相信以junyang的能力和履历必然会各家争抢吧hhh
--【拾贰】--:
看来是真的要来了,期待
--【拾叁】--:
小米表示密切关注离职人眼动向
--【拾肆】--:
大佬的风格怎么一股知乎的既视感 ,不过还是谢谢总结了
--【拾伍】--:
想向佬请教一个问题:
前些年的alpha zero给我留下了深刻印象, 佬对于基于Model-based强化学习的这个线路是怎么看的, 谢谢!!
--【拾陆】--:
这种底层架构的转变,会进一步推高对内存的需求
--【拾柒】--:
是的,不仅KV-Cache离不开内存从Engram来看外置的embedding哈希表进一步依赖相对廉价的持久化存储层是势在必行的。
--【拾捌】--:
看着挺厉害,可惜不懂说的啥,自己太菜了
--【拾玖】--:
感谢佬认可,从DeepSeekV3.2-Speciale推出就对他们的infra比较看好。这次的DualPath更是进一步提高了在Agentic Task场景下的吞吐量,非常期待!
前言
最近看到有不少佬友在讨论DeepSeek,有佬说目前DeepSeek已经完全掉队、无法与主流梯队竞争的,也有对v4望眼欲穿的,忍不住写了一些个人理解,不过考虑到笔者才疏学浅,所以抛砖引玉一下,希望能引发更多讨论,也衷心希望DeepSeek-V4能带给我们更多惊喜。
本文同步自DeepSeek-V4 前瞻,转载请声明原创。
自2025年春节DeepSeek-R1的论文爆火以后,Deepseek不仅为这个世界贡献了RL路线的推理模型技术方案,更是以其低廉的模型训练成本,震惊了当下的大模型业界。而今距离石破天惊已然过了一个春秋,回顾这一年里,不仅各家厂商如雨后春笋般推出了众多优秀模型,更有ClaudeCode引领的Agentic Task应用范式迭代。闭源模型有御三家激烈竞争,GPT-5 Pro、Claude Opus 4.6和Gemini 3.1 Pro各自留下了浓墨重彩,国内的Kimi-2.5/GLM-5/MiniMax-2.5也不遑多让,Qwen 3.5更是可谓挑起了开源模型的大梁。而在此风云下,DeepSeek V3.2系列固然让人看到不少亮点,但是也对V4抱有更多期待。那么本文就以近期DeepSeek-AI的多篇研究工作入手,对即将到来的新一代基模进行预测,笔者才学有限,如有谬误之处还请不吝指出。
为了不至于让本文显得是对论文的堆砌总结,不按照论文发表时间进行而是从架构、训练、推理部署乃至应用特化等角度进行分析。如果说最让笔者报以期待的,当仁不让的就是Engram这篇论文中提到的条件记忆模块,这篇由梁文峰署名的工作提出了一种新的大模型稀疏性维度。众所周知Transformer架构自诞生以来就受限于其缺乏原生的知识检索原语,对于海量的事实性信息LLM被迫依赖FFN模块的静态模式重构,在浅层网络中消耗了极其宝贵的有效深度,挤占了整体模型的推理算力容量。而去年一年大行其道的MoE系统确实能够扩展容量并减少推理压力,但是这种条件激活是有代价的。Engram模块则是通过分词器压缩将输入序列进行浓缩并提取其上下文特征,利用多头哈希将压缩的上下文映射到外部Embedding表;这样则实现了一个确定性寻址,能够在常数时间复杂度完成条件记忆块的加载,再与当前上下文进行动态融合。这种架构解耦了知识检索与动态推理,不仅仅在知识检索类benchmark获得了显著提升,也在通用推理等领域带来了收益,说明Engram机制能有效优化早期层的可用深度。(代价是什么呢?通过内存和储存系统来置换算力会导致存储设备更加昂贵)
其次是mHc这篇论文中的流型约束超连接范式,由于时下的LLM早就不满足于标准残差连接而是转而使用Hyper-Connections范式,通过大幅扩展残差流的宽度并引入多样化的跳连接模式换取模型性能提升,但是这种HC破坏了标准残差连接的恒等映射,可能导致训练时出现Loss Spikes,限制模型的Scale Up。而DeepSeek提出的mHC就是针对这个问题,通过严格约束的流形空间保证了残差连接空间的可控,在V3的预训练过程中,DeepSeek团队就提出过从未经历任何不可恢复的Loss Spikes,这一点在训练时具有莫大的优势。
除了底层架构的变化以外,最近还有两篇Dual系工作,分别是DualPipe和DualPath,由于笔者在推理infrastructure方面的基础实在是薄弱不敢贻笑大方,因此简要提一下文章中给出的优势。前者DualPipe是针对GPU集群通信的流水线调度,构建细粒度的内核,将传统的单一前向或后向块(Chunk)进一步分解为四个执行阶段:注意力计算(Attention)、跨设备调度通信(All-to-all dispatch)、多层感知机计算(MLP)以及跨设备结果合并通信(All-to-all combine)。配合微批次馈入,降低了流水线并行的气泡开销,提高训练过程的能效比和性价比。后者DualPath针对推理时存储I/O约束进行优化,在现代LLM部署中,尤其是当下的Agentic Task任务范式,包含了多轮对话与工具调用,每次的模型交互可能User Input只新增数百Token,但整个上下文会急速膨胀,目前业界主要采用“预填充-解码分离”架构,将PE和DE进行物理隔离。而实际上,在有KV-Cache的极高命中率场景中,GPU算力并非成本,如何将KV-Cache从持久化存储层如NVMe SSD加载回HBM成了IO Bound,现有的PD分离架构反而导致了资源错配。而DualPath引入双路KV-Cache加载机制,分别在PE/DE中增加了Buffer,利用全局的调度进行双路IO,再利用高带宽的网络(如InfiniBand或RoCE)从DE发送至PE节点。在这种方式的加持下,DualPath能将在线并发吞吐量平均提升1.96倍。笔者认为这也是近期DeepSeek在官方服务与V4 Lite中加入1M上下文支持的底气。
其他方面,近期V4 Lite版本的NDA测试中,传出Non-Thinking Mode性能超越了V3.2 Thinking Mode,合理认为Deepseek将早期的R1显示推理链已经内化到了V4的前向参数中。以及,据传V4 Lite是原生多模态,结合官方最近在DeepSeek-OCR 2上的工作,其图像空间理解能力也有较大提升,当然本段信息均无可靠官方背书,只是笔者猜测。
综合来看,本次V4最让笔者期待的是Engram加持下的Context处理方式和DualPath带来的推理吞吐量提升,这两者在当下的Agentic AI时代具有莫大意义,也衷心希望在不响这么久以后,DeepSeek能给我们带来更多惊喜。
网友解答:--【壹】--:
写的真好,通过DeepSeek目前公开的论文来看,应该是解决了推理速度和部署成本的问题,简直是完美
--【贰】--:
dualpath那篇我看的是很震惊能极大提高token的吞吐的同时不会为了求快导致模型输出质量下降
--【叁】--:
给佬加了原创标签
--【肆】--: x1a0y4o:
Qwen 3.5 更是可谓挑起了开源模型的大梁
qwen 的关键成员离职了,未来还会开源吗
不过如果加入了 deepseek 那我没有意见
--【伍】--:
感谢感谢,我自己都忘记了
--【陆】--:
好期待呀
--【柒】--:
对RL这块我不能说有太深入的认识,至于Model-based路线前景需要结合应用对象来看,从dreamer系列的成功我认为还是大有可为的
--【捌】--:
Qwen3.5系列足够优秀,感觉开源社区可以玩一年这个系列的模型,下一步就看DeepSeek的了,如果v4也足够优秀的话那就太棒了
--【玖】--:
是的,这次Qwen3.5的27B dense模型给了最大的惊喜,在去年MoE大行其道的情况下,还能有如此出色的性能表现,击败一众70-80b模型,确实令人印象深刻。至于Qwen的小模型,可以说从2.5以来就支撑了CS研究领域的小半壁江山
2025-2026年的HF 7692 篇 AI 论文,Qwen 是无可争议的 open model 第一名。
41% 的论文使用了 Qwen 。
在 Qwen3 发布的2025年五月,每两篇论文就有一篇使用了 Qwen 。
在全年,每月产出的 AI 论文,至少30% 使用 Qwen。
--【拾】--:
哈哈因为本人语文一向不怎么好,所以只能模仿一下其他人的写作风格。相互交流,大家对Deepseek都抱有很大期望嘛
--【拾壹】--:
目前来看离职的政治斗争成分居多,未来qwen系列开源前景我个人抱有悲观态度。至于下家,相信以junyang的能力和履历必然会各家争抢吧hhh
--【拾贰】--:
看来是真的要来了,期待
--【拾叁】--:
小米表示密切关注离职人眼动向
--【拾肆】--:
大佬的风格怎么一股知乎的既视感 ,不过还是谢谢总结了
--【拾伍】--:
想向佬请教一个问题:
前些年的alpha zero给我留下了深刻印象, 佬对于基于Model-based强化学习的这个线路是怎么看的, 谢谢!!
--【拾陆】--:
这种底层架构的转变,会进一步推高对内存的需求
--【拾柒】--:
是的,不仅KV-Cache离不开内存从Engram来看外置的embedding哈希表进一步依赖相对廉价的持久化存储层是势在必行的。
--【拾捌】--:
看着挺厉害,可惜不懂说的啥,自己太菜了
--【拾玖】--:
感谢佬认可,从DeepSeekV3.2-Speciale推出就对他们的infra比较看好。这次的DualPath更是进一步提高了在Agentic Task场景下的吞吐量,非常期待!

