华为芯片拖慢DeepSeek V4上线？同一内核通吃英伟达昇腾还加速近2倍!

2026-04-29 09:032阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

DeepSeek V4 发布前，社区广泛流传一种猜测：V4 上线时间晚于预期，是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻，但披露的性能数据与之明显矛盾。

报告显示，V4 的细粒度专家分区方案（Fine-Grained EP Scheme）已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证，常规推理负载加速 1.50 至 1.73 倍，RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之，V4 在两套硬件上都跑出了接近理论上限的效率，跨平台适配并未造成性能折损。

image1070×240 74.3 KB

huggingface.co

DeepSeek_V4.pdf

68.21 KB

网友解答：

--【壹】--：

推理和训练的难度几乎是一个天上，一个地下。

--【贰】--：

还有人boost要我别二极管，我可没有啊，那不是那人属实太典了，我看他说的言之凿凿的还以为啥内部爆料呢，结果往下一看吹mimo吹的跟没用过的一样，十分失望，啥也不是。

--【叁】--：

昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型，所以不存在所谓"无法在昇腾芯片上运行，导致全面切换为英伟达"芯片的可能。那个传言更可能说的是训练的问题

--【肆】--：

内部消息是这样，但是也只适配了910C 的华为昇腾

--【伍】--： 你这是违法行为:

V4 技术报告虽未直接回应这一传闻，但披露的性能数据与之明显矛盾

并不能反驳这项传言啊。也许是这样的：Deepseek团队为了让模型在昇腾上运行速度和在英伟达上一样快，肯定做了很多优化，所以拖慢了发布速度

--【陆】--：

真的好艰难啊，我还以为整个训练+推理都是用的国产卡。

--【柒】--：

是不是可以简单理解为国产算力很快就赶上来了，西方算力绝对性一边倒的情况要改变了？

--【捌】--：

说到底，还是在后训练和推理上做了优化工作，完全用昇腾还是难如登天

--【玖】--：

deepseekv4的多模态能力怎么样？刚刚看到一个帖子说不支持网络搜索

--【拾】--： 你这是违法行为:

性能折损

之前说的并不是性能折损吧，我记得说的是适配困难。
适配困难是能不能的问题，性能折损是克服困难适配成功后好不好的问题

--【拾壹】--：

也就是说传闻并非虚假，确实有适配困难，造成了一些麻烦，但是困难被克服，适配成功。落地效果是没有性能折损

--【拾贰】--：

现在训练好像还是用国外的N卡，但是推理可以用国产了。意味着以后价格可能更便宜，但是训练这方面还得突破。

--【拾叁】--：

适配困难这个情况肯定是有的，我记得当时小道消息还说呢，还说因为无法完成适配，然后全面切换回英伟达的芯片。但是完成了适配，而且性能折损的问题也没有造成。

--【拾肆】--：

这个不矛盾吧
适配困难/难用不等于性能差
推理改成国内卡需要改动的东西有点多吧

--【拾伍】--：

那是不是说部署端已经出现国产替代方案了，但是训练端想模型迭代还是依赖N

--【拾陆】--：

910C支持fp4的mma吗。我还以为是更新的昇腾卡。不是很了解华为，似乎有很多代，有些据说比较难用

--【拾柒】--：

论坛现在抬杠的太多了，而且不去了解信息，就直接说的人太多了。现在这个风气很严重。所以说，佬友不用在意，不用管他。

--【拾捌】--：

不是刚才论坛还有个人带节奏说华为卡什么算子算不准，结果转头吹小米模型了，直接释怀了

--【拾玖】--：

其他国产卡也快快跟进吧，希望以后能用上便宜的token

标签：人工智能

问题描述：

image1070×240 74.3 KB

huggingface.co

DeepSeek_V4.pdf

68.21 KB

网友解答：

--【壹】--：

推理和训练的难度几乎是一个天上，一个地下。

--【贰】--：

--【叁】--：

--【肆】--：

内部消息是这样，但是也只适配了910C 的华为昇腾

--【伍】--： 你这是违法行为:

V4 技术报告虽未直接回应这一传闻，但披露的性能数据与之明显矛盾

并不能反驳这项传言啊。也许是这样的：Deepseek团队为了让模型在昇腾上运行速度和在英伟达上一样快，肯定做了很多优化，所以拖慢了发布速度

--【陆】--：

真的好艰难啊，我还以为整个训练+推理都是用的国产卡。

--【柒】--：

是不是可以简单理解为国产算力很快就赶上来了，西方算力绝对性一边倒的情况要改变了？

--【捌】--：

说到底，还是在后训练和推理上做了优化工作，完全用昇腾还是难如登天

--【玖】--：

deepseekv4的多模态能力怎么样？刚刚看到一个帖子说不支持网络搜索

--【拾】--： 你这是违法行为:

性能折损

之前说的并不是性能折损吧，我记得说的是适配困难。
适配困难是能不能的问题，性能折损是克服困难适配成功后好不好的问题

--【拾壹】--：

也就是说传闻并非虚假，确实有适配困难，造成了一些麻烦，但是困难被克服，适配成功。落地效果是没有性能折损

--【拾贰】--：

现在训练好像还是用国外的N卡，但是推理可以用国产了。意味着以后价格可能更便宜，但是训练这方面还得突破。

--【拾叁】--：

--【拾肆】--：

这个不矛盾吧
适配困难/难用不等于性能差
推理改成国内卡需要改动的东西有点多吧

--【拾伍】--：

那是不是说部署端已经出现国产替代方案了，但是训练端想模型迭代还是依赖N

--【拾陆】--：

910C支持fp4的mma吗。我还以为是更新的昇腾卡。不是很了解华为，似乎有很多代，有些据说比较难用

--【拾柒】--：

论坛现在抬杠的太多了，而且不去了解信息，就直接说的人太多了。现在这个风气很严重。所以说，佬友不用在意，不用管他。

--【拾捌】--：

不是刚才论坛还有个人带节奏说华为卡什么算子算不准，结果转头吹小米模型了，直接释怀了

--【拾玖】--：

其他国产卡也快快跟进吧，希望以后能用上便宜的token

标签：人工智能

DeepSeek_V4.pdf

相关推荐

DeepSeek_V4.pdf

相关推荐