华为芯片拖慢DeepSeek V4上线?同一内核通吃英伟达昇腾还加速近2倍!

2026-04-29 09:030阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。

报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。

image1070×240 74.3 KB

huggingface.co

DeepSeek_V4.pdf

68.21 KB

网友解答:
--【壹】--:

推理和训练的难度几乎是一个天上,一个地下。


--【贰】--:

还有人boost要我别二极管,我可没有啊,那不是那人属实太典了,我看他说的言之凿凿的还以为啥内部爆料呢,结果往下一看吹mimo吹的跟没用过的一样,十分失望,啥也不是。


--【叁】--:

昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型,所以不存在所谓"无法在昇腾芯片上运行,导致全面切换为英伟达"芯片的可能。