华为芯片拖慢DeepSeek V4上线?同一内核通吃英伟达昇腾还加速近2倍!
- 内容介绍
- 文章标签
- 相关推荐
DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。
image1070×240 74.3 KB
DeepSeek_V4.pdf
68.21 KB
网友解答:--【壹】--:
推理和训练的难度几乎是一个天上,一个地下。
--【贰】--:
还有人boost要我别二极管,我可没有啊,那不是那人属实太典了,我看他说的言之凿凿的还以为啥内部爆料呢,结果往下一看吹mimo吹的跟没用过的一样,十分失望,啥也不是。
--【叁】--:
昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型,所以不存在所谓"无法在昇腾芯片上运行,导致全面切换为英伟达"芯片的可能。那个传言更可能说的是训练的问题
--【肆】--:
内部消息是这样,但是也只适配了910C 的华为昇腾
--【伍】--: 你这是违法行为:
V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾
并不能反驳这项传言啊。也许是这样的:Deepseek团队为了让模型在昇腾上运行速度和在英伟达上一样快,肯定做了很多优化,所以拖慢了发布速度
--【陆】--:
真的好艰难啊,我还以为整个训练+推理都是用的国产卡。
--【柒】--:
是不是可以简单理解为国产算力很快就赶上来了,西方算力绝对性一边倒的情况要改变了?
--【捌】--:
说到底,还是在后训练和推理上做了优化工作,完全用昇腾还是难如登天
--【玖】--:
deepseekv4的多模态能力怎么样?刚刚看到一个帖子说不支持网络搜索
--【拾】--: 你这是违法行为:
性能折损
之前说的并不是性能折损吧,我记得说的是适配困难。
适配困难是能不能的问题,性能折损是克服困难适配成功后好不好的问题
--【拾壹】--:
也就是说传闻并非虚假,确实有适配困难,造成了一些麻烦,但是困难被克服,适配成功。落地效果是没有性能折损
--【拾贰】--:
现在训练好像还是用国外的N卡,但是推理可以用国产了。意味着以后价格可能更便宜,但是训练这方面还得突破。
--【拾叁】--:
适配困难这个情况肯定是有的,我记得当时小道消息还说呢,还说因为无法完成适配,然后全面切换回英伟达的芯片。但是完成了适配,而且性能折损的问题也没有造成。
--【拾肆】--:
这个不矛盾吧
适配困难/难用不等于性能差
推理改成国内卡需要改动的东西有点多吧
--【拾伍】--:
那是不是说部署端已经出现国产替代方案了,但是训练端想模型迭代还是依赖N
--【拾陆】--:
910C支持fp4的mma吗。我还以为是更新的昇腾卡。不是很了解华为,似乎有很多代,有些据说比较难用
--【拾柒】--:
论坛现在抬杠的太多了,而且不去了解信息,就直接说的人太多了。现在这个风气很严重。所以说,佬友不用在意,不用管他。
--【拾捌】--:
不是刚才论坛还有个人带节奏说华为卡什么算子算不准,结果转头吹小米模型了,直接释怀了
--【拾玖】--:
其他国产卡也快快跟进吧,希望以后能用上便宜的token
DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。
image1070×240 74.3 KB
DeepSeek_V4.pdf
68.21 KB
网友解答:--【壹】--:
推理和训练的难度几乎是一个天上,一个地下。
--【贰】--:
还有人boost要我别二极管,我可没有啊,那不是那人属实太典了,我看他说的言之凿凿的还以为啥内部爆料呢,结果往下一看吹mimo吹的跟没用过的一样,十分失望,啥也不是。
--【叁】--:
昇腾的计算卡一直都能运行deepseek v3、glm、kimi等开源大模型,所以不存在所谓"无法在昇腾芯片上运行,导致全面切换为英伟达"芯片的可能。那个传言更可能说的是训练的问题
--【肆】--:
内部消息是这样,但是也只适配了910C 的华为昇腾
--【伍】--: 你这是违法行为:
V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾
并不能反驳这项传言啊。也许是这样的:Deepseek团队为了让模型在昇腾上运行速度和在英伟达上一样快,肯定做了很多优化,所以拖慢了发布速度
--【陆】--:
真的好艰难啊,我还以为整个训练+推理都是用的国产卡。
--【柒】--:
是不是可以简单理解为国产算力很快就赶上来了,西方算力绝对性一边倒的情况要改变了?
--【捌】--:
说到底,还是在后训练和推理上做了优化工作,完全用昇腾还是难如登天
--【玖】--:
deepseekv4的多模态能力怎么样?刚刚看到一个帖子说不支持网络搜索
--【拾】--: 你这是违法行为:
性能折损
之前说的并不是性能折损吧,我记得说的是适配困难。
适配困难是能不能的问题,性能折损是克服困难适配成功后好不好的问题
--【拾壹】--:
也就是说传闻并非虚假,确实有适配困难,造成了一些麻烦,但是困难被克服,适配成功。落地效果是没有性能折损
--【拾贰】--:
现在训练好像还是用国外的N卡,但是推理可以用国产了。意味着以后价格可能更便宜,但是训练这方面还得突破。
--【拾叁】--:
适配困难这个情况肯定是有的,我记得当时小道消息还说呢,还说因为无法完成适配,然后全面切换回英伟达的芯片。但是完成了适配,而且性能折损的问题也没有造成。
--【拾肆】--:
这个不矛盾吧
适配困难/难用不等于性能差
推理改成国内卡需要改动的东西有点多吧
--【拾伍】--:
那是不是说部署端已经出现国产替代方案了,但是训练端想模型迭代还是依赖N
--【拾陆】--:
910C支持fp4的mma吗。我还以为是更新的昇腾卡。不是很了解华为,似乎有很多代,有些据说比较难用
--【拾柒】--:
论坛现在抬杠的太多了,而且不去了解信息,就直接说的人太多了。现在这个风气很严重。所以说,佬友不用在意,不用管他。
--【拾捌】--:
不是刚才论坛还有个人带节奏说华为卡什么算子算不准,结果转头吹小米模型了,直接释怀了
--【拾玖】--:
其他国产卡也快快跟进吧,希望以后能用上便宜的token

