DeepSeek V4真正的划时代意义在哪里？不仅仅是价格便宜，它证明了中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点

2026-04-29 08:192阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

4 月 27 日更新，发现文章论点被主流央媒确认侧向确认
Screenshot20260427115545com.ss.android.ugc.aweme1260×2720 357 KB
Screenshot20260427115552com.ss.android.ugc.aweme1260×2720 367 KB
Screenshot20260427115333com.ss.android.ugc.aweme1260×2720 660 KB

刷抖音看到一个博主，跟我部分观点高度重合，干脆直接搬运他的原文过来。相同的部分不再重复，看他的就行；下面只放我自己的补充。

这部分重合的观点，总结：

image624×310 46.7 KB

博主名字：程意

博主原文

03df3eb5b0837eb622e3a828df3590d11280×1706 118 KB
4c4d1d1330e6430f88e6d3f45d90905f1440×1920 349 KB
0f547375078a6a98712f7b89e08f4fc81440×1920 354 KB
a26a8f0e5d90cc20b01ce9dd45c2fc011280×1706 121 KB
144d7b18f6173b33221960409a78bd4d1179×1671 345 KB
206c4e7c2b5ade29da534af8df4d14841440×1920 349 KB
9a7c3ed16008c58c78c7b41d3997c7361280×1706 113 KB
a2e1e13f83f909c4a7236c1c79df332b884×1108 101 KB
87e7a37649391e7567fc09ef462e0cc41280×1706 121 KB
a551a643ede7eb8ce1d4e569f93c31781440×1920 322 KB
fe73bf5f162ea26114bbf6a857adf6521280×1706 99.1 KB

中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点

虽然 V4 本次实际训练仍是英伟达 + 昇腾的混合方案，V4 技术报告本身（§3.1）已经直接证明：DeepSeek 的训练栈是硬件无关的——同一套 fine-grained EP 方案在英伟达 GPU 和华为昇腾 NPU 上都跑通并 benchmark 过，达到同等的 1.5–1.96× 加速比。这意味着后续从零预训练 V5/V6，完全在华为昇腾上做不存在任何技术约束，只剩产能约束。
image1920×993 184 KB
本段翻译：
性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比，该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速，在诸如强化学习部署和高速代理服务等对延迟敏感的场景下，加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。

这一段的工程含义是：DeepSeek 训练系统里最核心、最复杂、最依赖硬件特性的那部分（专家并行的通信-计算融合 kernel），在算法和接口层面已经和具体硬件解耦——它在 NVIDIA Hopper SM 架构和 Ascend Da Vinci 架构上用同一套设计跑出同一档性能。

从 V4 技术报告内在内容可以直接推导出以下三点：

(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分，最核心都跑通了，外围（数据加载、优化器、checkpointing 等）只会更通用。
(2) DeepSeek 在论文层面就把硬件抽象掉了——§3.1 后半段直接给硬件厂商列指标，§4.2.2 训练设置整段不提硬件。这是叙事策略，也是事实陈述：硬件可替换。
(3) FP4 路径明确指向未来昇腾硬件——报告原文：“the peak FLOPs for FP4 × FP8 operations… can theoretically be implemented to be 1/3 more efficient on future hardware”。这里的 “future hardware” 在产业语境下精准对应昇腾 950DT（FP4 原生支持，4 PFLOPS FP4，Q4 2026）。

V4 技术报告本身就证明了"后续可以完全摆脱英伟达"，这不需要等条件成熟、不需要等华为侧再适配，技术报告里的事实陈述就是证据。

DeepSeek 现在还在用英伟达，是因为：
(1) 2024 年禁运前的 H800 库存沉没成本要利用；
(2) 昇腾 950DT 要等到 Q4 2026；
(3) 当前 token-per-dollar 最优解就是双轨混合。这三点全都是商业决策因素，不涉及任何技术不可行性。

DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建"，谁先解开谁赢

image685×488 17.9 KB
信息来源：

https://rmi.org/pjms-speed-to-power-problem-and-how-to-fix-it/ https://newsletter.semianalysis.com/p/are-ai-datacenters-increasing-electric https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers https://www.datacenterdynamics.com/en/news/oracleopenai-drop-plans-to-expand-flagship-abilene-stargate-site-meta-in-talks-to-pick-up-crusoe-capacity-with-nvidias-help/ https://www.datacenterdynamics.com/en/news/lawsuit-launched-against-musks-xai-over-illegal-gas-turbines-at-memphis-data-center/ https://earthjustice.org/press/2026/xai-sued-for-illegal-power-plant https://fortune.com/2026/03/27/meta-hyperion-10-gas-power-plants-louisiana-entergy/ https://www.datacenterdynamics.com/en/news/microsoft-cancels-up-to-2gw-of-data-center-projects-says-td-cowen/

image816×299 8.26 KB

美国的瓶颈是结构性的（电网、土地、监管），中国的瓶颈是周期性的（产能爬坡）——前者解决要 5-10 年甚至无解，后者要 12-24 个月。 但更关键的转变发生在中国侧：V4 之前，中国缺的是被美国锁死的英伟达卡——那是没有解的死结，钱解决不了、时间也解决不了；V4 之后，中国缺的是华为自家的产能——那是有时间表的工程问题。这不是程度的缓解，是性质的转变——从被外部锁死，变成等自己爬坡。死结换成了时钟。 中国 AI 不是和美国"被拉到同一起跑线"，而是第一次走出了"根本不在跑道上"的位置——从这一刻起，剩下的只是产能爬坡的时间问题，不再是是否被卡脖子的生存问题。

image641×364 18.6 KB

image651×284 18.3 KB

本文部分内容使用 AI 润色，AI 润色后的部分已换为截图，但全文观点均由本人提出

文章写完，刷 B 站才发现沈逸老师也表达了类似的观点，这里附上视频链接
【DeepSeek-V4发布黄仁勋担忧成真…撕裂CUDA生态了！沈逸三妹】 https://www.bilibili.com/video/BV1GWofBcEHw/?share_source=copy_web&vd_source=1a65bba9e022f58e8968c1f5bacd98f5

网友解答：

--【壹】--：

目前的v4，个人感觉最大意义也不在于民用，而是一个转折点，等到后续国产显卡全面铺开，国内一众厂商甚至世界范围内的厂商都会有一条完全不同的路线

--【贰】--：

看完了，非常认同，期待昇腾芯片放量之后国产大模型的表现

--【叁】--：

重点倒不是民用不民用，最主要的是，它证明了，而且也跑通了使用国内算力卡的这一条路，并且还开源了，虽然现在还是买不到，要等华为产能爬坡，但是对于咱们国家来说，产能爬坡是一个非常快的事情，等它产能爬坡爬上来之后，那就是国内的算力要比老美那边还要更高

--【肆】--：

说人话，之前命是在人家手上，人家想让你死，你就很难爬起来。现在是训练和推理都在国产芯片上跑通了，就看自己跑的快不快，反正存活肯定不是问题了

--【伍】--：

deepseek 这一次主要是首发就原生把华为昇腾打通了，不用再用转译器，这个工作费力不讨好的，普通的商业公司等不及

--【陆】--：

不要拿 API 价格去对比你平常使用的套餐感受，应该拿套餐对比套餐才对，ollama已经上的有V4的套餐了，可以看看

如果要比价，那么 API 它应该对比的，应该是各个旗舰模型的官方 API 价格，因为他们确实也提供 API，不然这样的对比是不公平的

--【柒】--：

确实，虽然水平有限，但是划时代的全国产替代，就等国内算力发展起来，token价格立马就会下来，国内电力已经完全不缺了

--【捌】--：

这篇文章前两天也看到过，也挺赞同的。DeepSeekv4最强的就是打通了国产卡的训练和推理，虽然模型能力还差闭源模型几个月的时间，但是每一次迭代都能看到突破。只要开源模型能跟上不被甩掉，虽然性能还不如闭源模型，但是美国的AI叙事就会大受打击，要没当初的开源，openai现在也不会那么难受

--【玖】--：

v4可不便宜啊 pro对话一次思考级别high 打完折是5毛对话一次，这还只是agents跑了一次，也就五六十k token，感觉打1折还说得过去。

--【拾】--：

deepseek 总是做出一些突破性的东西，v4 这么久的期待还是值得的。希望国模继续加油吧

--【拾壹】--：

对于单个卡的算力来说，华为确实是比不过英伟达。但是，对比集群来说，如果统一上集群，华为的集群总算力甚至要比英伟达还更高，可能是因为，在以前通信行业积累的技术，也可能是其他力大砖飞之类的，但效果是这样的

--【拾贰】--：

对我也是更关心这一点，虽然文件当中提到了，但是我还是不太了解。[quote=“正在缓冲99%, post:1, topic:2061320, username:huanchong”]
(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分，最核心都跑通了，外围（数据加载、优化器、checkpointing 等）只会更通用。
[/quote]

--【拾叁】--：

之前的国内模型被算力卡脖子，更多是处于一种有钱都花不出去的境地，毕竟，算力卡被禁售了，现在，则是没有这个限制，不是说不再禁售，而是说，华为的算力卡也能来干同样的事情了。那华为肯定不会禁售国内啊，只剩下等待华为产能爬坡就好，而且一旦华为的产能上来之后，国内的算力甚至可能比老美那边还要更高一点，因为国内的基建远比老美那边好的多

--【拾肆】--： 正在缓冲99%:

性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比，该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速，在诸如强化学习部署和高速代理服务等对延迟敏感的场景下，加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。

这里只说了推理使用华为吧并没有提到可以在华为NPU上训练啊

--【拾伍】--：

是的，这个意义更大，最坏的结果是不过变成力大砖飞，不会有以前那种有力没处使的状态

--【拾陆】--：

我也是看到好多人发了很多加密文字，是我电脑的问题吗？

--【拾柒】--：

挺赞的，感觉是默默在低调做事，可以说贡献巨大

--【拾捌】--：

是的，不依赖制成，只依赖算力规模，就像老黄说的，哪怕是堆砌低算力也能进行迭代

--【拾玖】--：

我很赞同你的观点，我一直觉得中国的ai瓶颈就落在算力上，之前最好的大模型都是美国，很大程度是他们的算力比我们好太多了，力大砖飞。现在国产算力上来了，全链路跑通，无论硬件还是软件都可以迭代，就不用看他们的脸色。其实体验下来，我感觉DeepSeek和gpt、claude code还是有差距的，但是我很期待国产大模型接下来的迭代

标签：DeepSeek 人工智能软件开发

问题描述：

刷抖音看到一个博主，跟我部分观点高度重合，干脆直接搬运他的原文过来。相同的部分不再重复，看他的就行；下面只放我自己的补充。

这部分重合的观点，总结：

image624×310 46.7 KB

博主名字：程意

博主原文

中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点

从 V4 技术报告内在内容可以直接推导出以下三点：

V4 技术报告本身就证明了"后续可以完全摆脱英伟达"，这不需要等条件成熟、不需要等华为侧再适配，技术报告里的事实陈述就是证据。

DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建"，谁先解开谁赢

image685×488 17.9 KB
信息来源：

image816×299 8.26 KB

image641×364 18.6 KB

image651×284 18.3 KB

本文部分内容使用 AI 润色，AI 润色后的部分已换为截图，但全文观点均由本人提出

网友解答：

--【壹】--：

--【贰】--：

看完了，非常认同，期待昇腾芯片放量之后国产大模型的表现

--【叁】--：

--【肆】--：

--【伍】--：

deepseek 这一次主要是首发就原生把华为昇腾打通了，不用再用转译器，这个工作费力不讨好的，普通的商业公司等不及

--【陆】--：

不要拿 API 价格去对比你平常使用的套餐感受，应该拿套餐对比套餐才对，ollama已经上的有V4的套餐了，可以看看

如果要比价，那么 API 它应该对比的，应该是各个旗舰模型的官方 API 价格，因为他们确实也提供 API，不然这样的对比是不公平的

--【柒】--：

确实，虽然水平有限，但是划时代的全国产替代，就等国内算力发展起来，token价格立马就会下来，国内电力已经完全不缺了

--【捌】--：

--【玖】--：

v4可不便宜啊 pro对话一次思考级别high 打完折是5毛对话一次，这还只是agents跑了一次，也就五六十k token，感觉打1折还说得过去。

--【拾】--：

deepseek 总是做出一些突破性的东西，v4 这么久的期待还是值得的。希望国模继续加油吧

--【拾壹】--：

--【拾贰】--：

--【拾叁】--：

--【拾肆】--： 正在缓冲99%:

性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比，该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速，在诸如强化学习部署和高速代理服务等对延迟敏感的场景下，加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。

这里只说了推理使用华为吧并没有提到可以在华为NPU上训练啊

--【拾伍】--：

是的，这个意义更大，最坏的结果是不过变成力大砖飞，不会有以前那种有力没处使的状态

--【拾陆】--：

我也是看到好多人发了很多加密文字，是我电脑的问题吗？

--【拾柒】--：

挺赞的，感觉是默默在低调做事，可以说贡献巨大

--【拾捌】--：

是的，不依赖制成，只依赖算力规模，就像老黄说的，哪怕是堆砌低算力也能进行迭代

--【拾玖】--：

标签：DeepSeek 人工智能软件开发

中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点

从 V4 技术报告内在内容可以直接推导出以下三点：

DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建"，谁先解开谁赢

相关推荐

中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点

从 V4 技术报告内在内容可以直接推导出以下三点：

DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建"，谁先解开谁赢

相关推荐