DeepSeek更新DeepEP v2大幅提升通信效率并节省算力
- 内容介绍
- 文章标签
- 相关推荐
DeepSeek于2026年4月23日在GitHub更新了完全重构的专家并行通信库DeepEP v2。此次发布相较于此前承诺的5月1日前,提前了一周左右。该库作为大语言模型在分布式训练和推理中的核心通信组件,此次更新旨在解决初代版本积累的技术债务与性能瓶颈。
GitHub - deepseek-ai/DeepEP at epv2-release
epv2-release
DeepEP: an efficient expert-parallel communication library - deepseek-ai/DeepEP
新发布的DeepEP v2实现了对专家并行通信机制的彻底重构,专家并行是一种让大语言模型中的不同专家模块在不同计算节点上协同工作的技术。在延续DeepSeek V3模型配置的测试中,新版本不仅将峰值性能提升至初代的1.3倍,还将流处理器资源的占用降低了多达4倍。这意味着该通信库可以在消耗极少GPU计算资源的情况下,实现更高效的数据交换。
技术架构方面,DeepEP v2放弃了原有的NVSHMEM后端,切换为更轻量、无头文件的NCCL Gin后端,并引入了全即时编译框架。新版本还带来了多项零流处理器消耗的实验性特性,包括流水线并行、上下文并行以及Engram远程拉取。Engram是DeepSeek在相关论文中提出的一种通过哈希查找的静态记忆模块,与混合专家架构互补,这些零流处理器特性能让网络传输几乎不占用GPU的核心计算算力。
目前该版本已支持英伟达Hopper架构以及Blackwell架构。开发团队表示,虽然新版在极限性能和算力节省上表现显著,但其显存缓冲区的占用相比初代有所增加,且Engram等部分新特性仍处于实验阶段。
网友解答:--【壹】--:
很巧很巧的是,今天就已经出了,狼真的来了
--【贰】--:
预计 27 年前应该能出。静静等一下消息。
--【叁】--:
还是国产算力拖慢了DeepSeekv4的发布时间,这些东西的话在之前就有对应的论文了,不知道这v4发布会不会拖慢后面的迭代速度
--【肆】--:
看了下, 价格有点贵啊, 说要等上华为卡才会降价
--【伍】--:
所以deepseek-v4 到底什么时候能出来呢
DeepSeek于2026年4月23日在GitHub更新了完全重构的专家并行通信库DeepEP v2。此次发布相较于此前承诺的5月1日前,提前了一周左右。该库作为大语言模型在分布式训练和推理中的核心通信组件,此次更新旨在解决初代版本积累的技术债务与性能瓶颈。
GitHub - deepseek-ai/DeepEP at epv2-release
epv2-release
DeepEP: an efficient expert-parallel communication library - deepseek-ai/DeepEP
新发布的DeepEP v2实现了对专家并行通信机制的彻底重构,专家并行是一种让大语言模型中的不同专家模块在不同计算节点上协同工作的技术。在延续DeepSeek V3模型配置的测试中,新版本不仅将峰值性能提升至初代的1.3倍,还将流处理器资源的占用降低了多达4倍。这意味着该通信库可以在消耗极少GPU计算资源的情况下,实现更高效的数据交换。
技术架构方面,DeepEP v2放弃了原有的NVSHMEM后端,切换为更轻量、无头文件的NCCL Gin后端,并引入了全即时编译框架。新版本还带来了多项零流处理器消耗的实验性特性,包括流水线并行、上下文并行以及Engram远程拉取。Engram是DeepSeek在相关论文中提出的一种通过哈希查找的静态记忆模块,与混合专家架构互补,这些零流处理器特性能让网络传输几乎不占用GPU的核心计算算力。
目前该版本已支持英伟达Hopper架构以及Blackwell架构。开发团队表示,虽然新版在极限性能和算力节省上表现显著,但其显存缓冲区的占用相比初代有所增加,且Engram等部分新特性仍处于实验阶段。
网友解答:--【壹】--:
很巧很巧的是,今天就已经出了,狼真的来了
--【贰】--:
预计 27 年前应该能出。静静等一下消息。
--【叁】--:
还是国产算力拖慢了DeepSeekv4的发布时间,这些东西的话在之前就有对应的论文了,不知道这v4发布会不会拖慢后面的迭代速度
--【肆】--:
看了下, 价格有点贵啊, 说要等上华为卡才会降价
--【伍】--:
所以deepseek-v4 到底什么时候能出来呢

