华为芯片拖慢DeepSeek V4上线?同一内核通吃英伟达昇腾还加速近2倍!
- 内容介绍
- 文章标签
- 相关推荐
DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。
image1070×240 74.3 KB
DeepSeek_V4.pdf
68.21 KB
网友解答:--【壹】--:
推理和训练的难度几乎是一个天上,一个地下。
--【贰】--:
还有人boost要我别二极管,我可没有啊,那不是那人属实太典了,我看他说的言之凿凿的还以为啥内部爆料呢,结果往下一看吹mimo吹的跟没用过的一样,十分失望,啥也不是。
--【叁】--:
昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型,所以不存在所谓"无法在昇腾芯片上运行,导致全面切换为英伟达"芯片的可能。
DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。
image1070×240 74.3 KB
DeepSeek_V4.pdf
68.21 KB
网友解答:--【壹】--:
推理和训练的难度几乎是一个天上,一个地下。
--【贰】--:
还有人boost要我别二极管,我可没有啊,那不是那人属实太典了,我看他说的言之凿凿的还以为啥内部爆料呢,结果往下一看吹mimo吹的跟没用过的一样,十分失望,啥也不是。
--【叁】--:
昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型,所以不存在所谓"无法在昇腾芯片上运行,导致全面切换为英伟达"芯片的可能。

