DeepSeek V4真正的划时代意义在哪里?不仅仅是价格便宜,它证明了中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点
- 内容介绍
- 文章标签
- 相关推荐
4 月 27 日更新,发现文章论点被主流央媒确认侧向确认
Screenshot20260427115545com.ss.android.ugc.aweme1260×2720 357 KB
Screenshot20260427115552com.ss.android.ugc.aweme1260×2720 367 KB
Screenshot20260427115333com.ss.android.ugc.aweme1260×2720 660 KB
刷抖音看到一个博主,跟我部分观点高度重合,干脆直接搬运他的原文过来。相同的部分不再重复,看他的就行;下面只放我自己的补充。
这部分重合的观点,总结:
image624×310 46.7 KB
博主名字:程意
博主原文
03df3eb5b0837eb622e3a828df3590d11280×1706 118 KB
4c4d1d1330e6430f88e6d3f45d90905f1440×1920 349 KB
0f547375078a6a98712f7b89e08f4fc81440×1920 354 KB
a26a8f0e5d90cc20b01ce9dd45c2fc011280×1706 121 KB
144d7b18f6173b33221960409a78bd4d1179×1671 345 KB
206c4e7c2b5ade29da534af8df4d14841440×1920 349 KB
9a7c3ed16008c58c78c7b41d3997c7361280×1706 113 KB
a2e1e13f83f909c4a7236c1c79df332b884×1108 101 KB
87e7a37649391e7567fc09ef462e0cc41280×1706 121 KB
a551a643ede7eb8ce1d4e569f93c31781440×1920 322 KB
fe73bf5f162ea26114bbf6a857adf6521280×1706 99.1 KB
中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点
虽然 V4 本次实际训练仍是英伟达 + 昇腾的混合方案,V4 技术报告本身(§3.1)已经直接证明:DeepSeek 的训练栈是硬件无关的——同一套 fine-grained EP 方案在英伟达 GPU 和华为昇腾 NPU 上都跑通并 benchmark 过,达到同等的 1.5–1.96× 加速比。这意味着后续从零预训练 V5/V6,完全在华为昇腾上做不存在任何技术约束,只剩产能约束。
image1920×993 184 KB
本段翻译:
性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比,该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速,在诸如强化学习部署和高速代理服务等对延迟敏感的场景下,加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。
这一段的工程含义是:DeepSeek 训练系统里最核心、最复杂、最依赖硬件特性的那部分(专家并行的通信-计算融合 kernel),在算法和接口层面已经和具体硬件解耦——它在 NVIDIA Hopper SM 架构和 Ascend Da Vinci 架构上用同一套设计跑出同一档性能。
从 V4 技术报告内在内容可以直接推导出以下三点:
(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分,最核心都跑通了,外围(数据加载、优化器、checkpointing 等)只会更通用。
(2) DeepSeek 在论文层面就把硬件抽象掉了——§3.1 后半段直接给硬件厂商列指标,§4.2.2 训练设置整段不提硬件。这是叙事策略,也是事实陈述:硬件可替换。
(3) FP4 路径明确指向未来昇腾硬件——报告原文:“the peak FLOPs for FP4 × FP8 operations… can theoretically be implemented to be 1/3 more efficient on future hardware”。这里的 “future hardware” 在产业语境下精准对应昇腾 950DT(FP4 原生支持,4 PFLOPS FP4,Q4 2026)。
V4 技术报告本身就证明了"后续可以完全摆脱英伟达",这不需要等条件成熟、不需要等华为侧再适配,技术报告里的事实陈述就是证据。
DeepSeek 现在还在用英伟达,是因为:
(1) 2024 年禁运前的 H800 库存沉没成本要利用;
(2) 昇腾 950DT 要等到 Q4 2026;
(3) 当前 token-per-dollar 最优解就是双轨混合。这三点全都是商业决策因素,不涉及任何技术不可行性。
DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建",谁先解开谁赢
image685×488 17.9 KB
信息来源:
https://rmi.org/pjms-speed-to-power-problem-and-how-to-fix-it/
https://newsletter.semianalysis.com/p/are-ai-datacenters-increasing-electric
https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers
https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers
https://www.datacenterdynamics.com/en/news/oracleopenai-drop-plans-to-expand-flagship-abilene-stargate-site-meta-in-talks-to-pick-up-crusoe-capacity-with-nvidias-help/
https://www.datacenterdynamics.com/en/news/lawsuit-launched-against-musks-xai-over-illegal-gas-turbines-at-memphis-data-center/
https://earthjustice.org/press/2026/xai-sued-for-illegal-power-plant
https://fortune.com/2026/03/27/meta-hyperion-10-gas-power-plants-louisiana-entergy/
https://www.datacenterdynamics.com/en/news/microsoft-cancels-up-to-2gw-of-data-center-projects-says-td-cowen/
image816×299 8.26 KB
美国的瓶颈是结构性的(电网、土地、监管),中国的瓶颈是周期性的(产能爬坡)——前者解决要 5-10 年甚至无解,后者要 12-24 个月。 但更关键的转变发生在中国侧:V4 之前,中国缺的是被美国锁死的英伟达卡——那是没有解的死结,钱解决不了、时间也解决不了;V4 之后,中国缺的是华为自家的产能——那是有时间表的工程问题。这不是程度的缓解,是性质的转变——从被外部锁死,变成等自己爬坡。死结换成了时钟。 中国 AI 不是和美国"被拉到同一起跑线",而是第一次走出了"根本不在跑道上"的位置——从这一刻起,剩下的只是产能爬坡的时间问题,不再是是否被卡脖子的生存问题。
image641×364 18.6 KB
image651×284 18.3 KB
本文部分内容使用 AI 润色,AI 润色后的部分已换为截图,但全文观点均由本人提出
文章写完,刷 B 站才发现沈逸老师也表达了类似的观点,这里附上视频链接
【DeepSeek-V4发布 黄仁勋担忧成真…撕裂CUDA生态了!沈逸 三妹】 https://www.bilibili.com/video/BV1GWofBcEHw/?share_source=copy_web&vd_source=1a65bba9e022f58e8968c1f5bacd98f5
--【壹】--:
目前的v4,个人感觉最大意义也不在于民用,而是一个转折点,等到后续国产显卡全面铺开,国内一众厂商甚至世界范围内的厂商都会有一条完全不同的路线
--【贰】--:
看完了,非常认同,期待昇腾芯片放量之后国产大模型的表现
--【叁】--:
重点倒不是民用不民用,最主要的是,它证明了,而且也跑通了使用国内算力卡的这一条路,并且还开源了,虽然现在还是买不到,要等华为产能爬坡,但是对于咱们国家来说,产能爬坡是一个非常快的事情,等它产能爬坡爬上来之后,那就是国内的算力要比老美那边还要更高
--【肆】--:
说人话,之前命是在人家手上,人家想让你死,你就很难爬起来。现在是训练和推理都在国产芯片上跑通了,就看自己跑的快不快,反正存活肯定不是问题了
--【伍】--:
deepseek 这一次主要是首发就原生把华为昇腾打通了,不用再用转译器,这个工作费力不讨好的,普通的商业公司等不及
--【陆】--:
不要拿 API 价格去对比你平常使用的套餐感受,应该拿套餐对比套餐才对,ollama已经上的有V4的套餐了,可以看看
如果要比价,那么 API 它应该对比的,应该是各个旗舰模型的官方 API 价格,因为他们确实也提供 API,不然这样的对比是不公平的
--【柒】--:
确实,虽然水平有限,但是划时代的全国产替代,就等国内算力发展起来,token价格立马就会下来,国内电力已经完全不缺了
--【捌】--:
这篇文章前两天也看到过,也挺赞同的。DeepSeekv4最强的就是打通了国产卡的训练和推理,虽然模型能力还差闭源模型几个月的时间,但是每一次迭代都能看到突破。只要开源模型能跟上不被甩掉,虽然性能还不如闭源模型,但是美国的AI叙事就会大受打击,要没当初的开源,openai现在也不会那么难受
--【玖】--:
v4可不便宜啊 pro对话一次思考级别high 打完折是5毛对话一次,这还只是agents跑了一次, 也就五六十k token,感觉打1折还说得过去。
--【拾】--:
deepseek 总是做出一些突破性的东西,v4 这么久的期待还是值得的。希望国模继续加油吧
--【拾壹】--:
对于单个卡的算力来说,华为确实是比不过英伟达。但是,对比集群来说,如果统一上集群,华为的集群总算力甚至要比英伟达还更高,可能是因为,在以前通信行业积累的技术,也可能是其他力大砖飞之类的,但效果是这样的
--【拾贰】--:
对我也是更关心这一点,虽然文件当中提到了,但是我还是不太了解。[quote=“正在缓冲99%, post:1, topic:2061320, username:huanchong”]
(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分,最核心都跑通了,外围(数据加载、优化器、checkpointing 等)只会更通用。
[/quote]
--【拾叁】--:
之前的国内模型被算力卡脖子,更多是处于一种有钱都花不出去的境地,毕竟,算力卡被禁售了,现在,则是没有这个限制,不是说不再禁售,而是说,华为的算力卡也能来干同样的事情了。那华为肯定不会禁售国内啊,只剩下等待华为产能爬坡就好,而且一旦华为的产能上来之后,国内的算力甚至可能比老美那边还要更高一点,因为国内的基建远比老美那边好的多
--【拾肆】--: 正在缓冲99%:
性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比,该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速,在诸如强化学习部署和高速代理服务等对延迟敏感的场景下,加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。
这里只说了推理使用华为吧 并没有提到可以在华为NPU上训练啊
--【拾伍】--:
是的,这个意义更大,最坏的结果是不过变成力大砖飞,不会有以前那种有力没处使的状态
--【拾陆】--:
我也是看到好多人发了很多加密文字,是我电脑的问题吗?
--【拾柒】--:
挺赞的,感觉是默默在低调做事,可以说贡献巨大
--【拾捌】--:
是的,不依赖制成,只依赖算力规模,就像老黄说的,哪怕是堆砌低算力也能进行迭代
--【拾玖】--:
我很赞同你的观点,我一直觉得中国的ai瓶颈就落在算力上,之前最好的大模型都是美国,很大程度是他们的算力比我们好太多了,力大砖飞。现在国产算力上来了,全链路跑通,无论硬件还是软件都可以迭代,就不用看他们的脸色。其实体验下来,我感觉DeepSeek和gpt、claude code还是有差距的,但是我很期待国产大模型接下来的迭代
4 月 27 日更新,发现文章论点被主流央媒确认侧向确认
Screenshot20260427115545com.ss.android.ugc.aweme1260×2720 357 KB
Screenshot20260427115552com.ss.android.ugc.aweme1260×2720 367 KB
Screenshot20260427115333com.ss.android.ugc.aweme1260×2720 660 KB
刷抖音看到一个博主,跟我部分观点高度重合,干脆直接搬运他的原文过来。相同的部分不再重复,看他的就行;下面只放我自己的补充。
这部分重合的观点,总结:
image624×310 46.7 KB
博主名字:程意
博主原文
03df3eb5b0837eb622e3a828df3590d11280×1706 118 KB
4c4d1d1330e6430f88e6d3f45d90905f1440×1920 349 KB
0f547375078a6a98712f7b89e08f4fc81440×1920 354 KB
a26a8f0e5d90cc20b01ce9dd45c2fc011280×1706 121 KB
144d7b18f6173b33221960409a78bd4d1179×1671 345 KB
206c4e7c2b5ade29da534af8df4d14841440×1920 349 KB
9a7c3ed16008c58c78c7b41d3997c7361280×1706 113 KB
a2e1e13f83f909c4a7236c1c79df332b884×1108 101 KB
87e7a37649391e7567fc09ef462e0cc41280×1706 121 KB
a551a643ede7eb8ce1d4e569f93c31781440×1920 322 KB
fe73bf5f162ea26114bbf6a857adf6521280×1706 99.1 KB
中国 AI 正式从被卡脖子进入到自身产能爬坡的拐点
虽然 V4 本次实际训练仍是英伟达 + 昇腾的混合方案,V4 技术报告本身(§3.1)已经直接证明:DeepSeek 的训练栈是硬件无关的——同一套 fine-grained EP 方案在英伟达 GPU 和华为昇腾 NPU 上都跑通并 benchmark 过,达到同等的 1.5–1.96× 加速比。这意味着后续从零预训练 V5/V6,完全在华为昇腾上做不存在任何技术约束,只剩产能约束。
image1920×993 184 KB
本段翻译:
性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比,该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速,在诸如强化学习部署和高速代理服务等对延迟敏感的场景下,加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。
这一段的工程含义是:DeepSeek 训练系统里最核心、最复杂、最依赖硬件特性的那部分(专家并行的通信-计算融合 kernel),在算法和接口层面已经和具体硬件解耦——它在 NVIDIA Hopper SM 架构和 Ascend Da Vinci 架构上用同一套设计跑出同一档性能。
从 V4 技术报告内在内容可以直接推导出以下三点:
(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分,最核心都跑通了,外围(数据加载、优化器、checkpointing 等)只会更通用。
(2) DeepSeek 在论文层面就把硬件抽象掉了——§3.1 后半段直接给硬件厂商列指标,§4.2.2 训练设置整段不提硬件。这是叙事策略,也是事实陈述:硬件可替换。
(3) FP4 路径明确指向未来昇腾硬件——报告原文:“the peak FLOPs for FP4 × FP8 operations… can theoretically be implemented to be 1/3 more efficient on future hardware”。这里的 “future hardware” 在产业语境下精准对应昇腾 950DT(FP4 原生支持,4 PFLOPS FP4,Q4 2026)。
V4 技术报告本身就证明了"后续可以完全摆脱英伟达",这不需要等条件成熟、不需要等华为侧再适配,技术报告里的事实陈述就是证据。
DeepSeek 现在还在用英伟达,是因为:
(1) 2024 年禁运前的 H800 库存沉没成本要利用;
(2) 昇腾 950DT 要等到 Q4 2026;
(3) 当前 token-per-dollar 最优解就是双轨混合。这三点全都是商业决策因素,不涉及任何技术不可行性。
DeepSeek 和华为昇腾让中美第一次站到对等的瓶颈面前——海外"有卡缺基建" vs 中国"缺卡有基建",谁先解开谁赢
image685×488 17.9 KB
信息来源:
https://rmi.org/pjms-speed-to-power-problem-and-how-to-fix-it/
https://newsletter.semianalysis.com/p/are-ai-datacenters-increasing-electric
https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers
https://www.tomshardware.com/tech-industry/artificial-intelligence/half-of-planned-us-data-center-builds-have-been-delayed-or-canceled-growth-limited-by-shortages-of-power-infrastructure-and-parts-from-china-the-ai-build-out-flips-the-breakers
https://www.datacenterdynamics.com/en/news/oracleopenai-drop-plans-to-expand-flagship-abilene-stargate-site-meta-in-talks-to-pick-up-crusoe-capacity-with-nvidias-help/
https://www.datacenterdynamics.com/en/news/lawsuit-launched-against-musks-xai-over-illegal-gas-turbines-at-memphis-data-center/
https://earthjustice.org/press/2026/xai-sued-for-illegal-power-plant
https://fortune.com/2026/03/27/meta-hyperion-10-gas-power-plants-louisiana-entergy/
https://www.datacenterdynamics.com/en/news/microsoft-cancels-up-to-2gw-of-data-center-projects-says-td-cowen/
image816×299 8.26 KB
美国的瓶颈是结构性的(电网、土地、监管),中国的瓶颈是周期性的(产能爬坡)——前者解决要 5-10 年甚至无解,后者要 12-24 个月。 但更关键的转变发生在中国侧:V4 之前,中国缺的是被美国锁死的英伟达卡——那是没有解的死结,钱解决不了、时间也解决不了;V4 之后,中国缺的是华为自家的产能——那是有时间表的工程问题。这不是程度的缓解,是性质的转变——从被外部锁死,变成等自己爬坡。死结换成了时钟。 中国 AI 不是和美国"被拉到同一起跑线",而是第一次走出了"根本不在跑道上"的位置——从这一刻起,剩下的只是产能爬坡的时间问题,不再是是否被卡脖子的生存问题。
image641×364 18.6 KB
image651×284 18.3 KB
本文部分内容使用 AI 润色,AI 润色后的部分已换为截图,但全文观点均由本人提出
文章写完,刷 B 站才发现沈逸老师也表达了类似的观点,这里附上视频链接
【DeepSeek-V4发布 黄仁勋担忧成真…撕裂CUDA生态了!沈逸 三妹】 https://www.bilibili.com/video/BV1GWofBcEHw/?share_source=copy_web&vd_source=1a65bba9e022f58e8968c1f5bacd98f5
--【壹】--:
目前的v4,个人感觉最大意义也不在于民用,而是一个转折点,等到后续国产显卡全面铺开,国内一众厂商甚至世界范围内的厂商都会有一条完全不同的路线
--【贰】--:
看完了,非常认同,期待昇腾芯片放量之后国产大模型的表现
--【叁】--:
重点倒不是民用不民用,最主要的是,它证明了,而且也跑通了使用国内算力卡的这一条路,并且还开源了,虽然现在还是买不到,要等华为产能爬坡,但是对于咱们国家来说,产能爬坡是一个非常快的事情,等它产能爬坡爬上来之后,那就是国内的算力要比老美那边还要更高
--【肆】--:
说人话,之前命是在人家手上,人家想让你死,你就很难爬起来。现在是训练和推理都在国产芯片上跑通了,就看自己跑的快不快,反正存活肯定不是问题了
--【伍】--:
deepseek 这一次主要是首发就原生把华为昇腾打通了,不用再用转译器,这个工作费力不讨好的,普通的商业公司等不及
--【陆】--:
不要拿 API 价格去对比你平常使用的套餐感受,应该拿套餐对比套餐才对,ollama已经上的有V4的套餐了,可以看看
如果要比价,那么 API 它应该对比的,应该是各个旗舰模型的官方 API 价格,因为他们确实也提供 API,不然这样的对比是不公平的
--【柒】--:
确实,虽然水平有限,但是划时代的全国产替代,就等国内算力发展起来,token价格立马就会下来,国内电力已经完全不缺了
--【捌】--:
这篇文章前两天也看到过,也挺赞同的。DeepSeekv4最强的就是打通了国产卡的训练和推理,虽然模型能力还差闭源模型几个月的时间,但是每一次迭代都能看到突破。只要开源模型能跟上不被甩掉,虽然性能还不如闭源模型,但是美国的AI叙事就会大受打击,要没当初的开源,openai现在也不会那么难受
--【玖】--:
v4可不便宜啊 pro对话一次思考级别high 打完折是5毛对话一次,这还只是agents跑了一次, 也就五六十k token,感觉打1折还说得过去。
--【拾】--:
deepseek 总是做出一些突破性的东西,v4 这么久的期待还是值得的。希望国模继续加油吧
--【拾壹】--:
对于单个卡的算力来说,华为确实是比不过英伟达。但是,对比集群来说,如果统一上集群,华为的集群总算力甚至要比英伟达还更高,可能是因为,在以前通信行业积累的技术,也可能是其他力大砖飞之类的,但效果是这样的
--【拾贰】--:
对我也是更关心这一点,虽然文件当中提到了,但是我还是不太了解。[quote=“正在缓冲99%, post:1, topic:2061320, username:huanchong”]
(1) 训练系统层面已经硬件无关——§3.1 明示在英伟达和昇腾两个平台跑通同等性能的 fine-grained EP 方案。这是训练框架最核心的部分,最核心都跑通了,外围(数据加载、优化器、checkpointing 等)只会更通用。
[/quote]
--【拾叁】--:
之前的国内模型被算力卡脖子,更多是处于一种有钱都花不出去的境地,毕竟,算力卡被禁售了,现在,则是没有这个限制,不是说不再禁售,而是说,华为的算力卡也能来干同样的事情了。那华为肯定不会禁售国内啊,只剩下等待华为产能爬坡就好,而且一旦华为的产能上来之后,国内的算力甚至可能比老美那边还要更高一点,因为国内的基建远比老美那边好的多
--【拾肆】--: 正在缓冲99%:
性能与开源巨型内核。 我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比,该方案在一般推理工作负载下实现了 1.50 至 1.73 倍的加速,在诸如强化学习部署和高速代理服务等对延迟敏感的场景下,加速倍数最高可达 1.96 倍。我们已将基于 CUDA 的巨型内核实现 MegaMoE2 作为 DeepGEMM 的一个组件开源。
这里只说了推理使用华为吧 并没有提到可以在华为NPU上训练啊
--【拾伍】--:
是的,这个意义更大,最坏的结果是不过变成力大砖飞,不会有以前那种有力没处使的状态
--【拾陆】--:
我也是看到好多人发了很多加密文字,是我电脑的问题吗?
--【拾柒】--:
挺赞的,感觉是默默在低调做事,可以说贡献巨大
--【拾捌】--:
是的,不依赖制成,只依赖算力规模,就像老黄说的,哪怕是堆砌低算力也能进行迭代
--【拾玖】--:
我很赞同你的观点,我一直觉得中国的ai瓶颈就落在算力上,之前最好的大模型都是美国,很大程度是他们的算力比我们好太多了,力大砖飞。现在国产算力上来了,全链路跑通,无论硬件还是软件都可以迭代,就不用看他们的脸色。其实体验下来,我感觉DeepSeek和gpt、claude code还是有差距的,但是我很期待国产大模型接下来的迭代

