Decoupled DiLoCo：弹性分布式人工智能训练新范式

2026-04-29 09:123阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上，并在这些 "孤岛 "之间进行异步数据流，从而隔离了局部中断，使系统的其他部分能够继续高效地学习。

因此，在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是，Decoupled DiLoCo 不会出现通信延迟，而这种延迟会使以前的分布式方法（如数据并行）在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长，我们正在探索多种方法，以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上：Pathways 引入了基于异步数据流的分布式人工智能系统，而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽，使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起，更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上，可以在独立的计算岛（称为学习单元）上实现异步训练，这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中，我们使用了一种名为 "混沌工程 "的方法，在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后，解耦 DiLoCo 继续执行训练过程，并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明，当硬件发生故障时，该系统能够保持比传统训练方法更高的学习集群可用性，同时最终提供与基准水平相同的机器学习（ML）性能。

image2592×1144 138 KB^[1]

解耦 DiLoCo 不仅对故障的恢复能力更强，而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络（使用数据中心设施之间现有的互联网连接即可达到这一水平，而不需要在设施之间新建定制网络基础设施）在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是，该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期，避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌，我们采用全栈式方法进行人工智能培训，包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起，我们取得了越来越多的成果。

除了效率和弹性，这种训练模式还能在一次训练运行中混合使用不同的硬件代，如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命，还增加了可用于模型训练的总计算量。在我们的实验中，以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配，这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是，由于新一代硬件不会同时到达各个地方，因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

Modern large-scale language model pre-training relies heavily on the single program multiple data (SPMD) paradigm, which requires tight coupling across accelerators. Due to this coupling, transient slowdowns, hardware failures, and synchronization...

图 2：左图：Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级，因此非常高效。中图随着硬件故障程度的增加，解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练，而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行）。右图：在真实世界的实验中，使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎

网友解答：

--【壹】--：

Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上，并在这些 "孤岛 "之间进行异步数据流，从而隔离了局部中断，使系统的其他部分能够继续高效地学习。

因此，在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是，Decoupled DiLoCo 不会出现通信延迟，而这种延迟会使以前的分布式方法（如数据并行）在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长，我们正在探索多种方法，以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上：Pathways 引入了基于异步数据流的分布式人工智能系统，而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽，使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起，更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上，可以在独立的计算岛（称为学习单元）上实现异步训练，这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中，我们使用了一种名为 "混沌工程 "的方法，在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后，解耦 DiLoCo 继续执行训练过程，并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明，当硬件发生故障时，该系统能够保持比传统训练方法更高的学习集群可用性，同时最终提供与基准水平相同的机器学习（ML）性能。

image2592×1144 138 KB^[1]

解耦 DiLoCo 不仅对故障的恢复能力更强，而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络（使用数据中心设施之间现有的互联网连接即可达到这一水平，而不需要在设施之间新建定制网络基础设施）在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是，该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期，避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌，我们采用全栈式方法进行人工智能培训，包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起，我们取得了越来越多的成果。

除了效率和弹性，这种训练模式还能在一次训练运行中混合使用不同的硬件代，如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命，还增加了可用于模型训练的总计算量。在我们的实验中，以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配，这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是，由于新一代硬件不会同时到达各个地方，因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

图 2：左图：Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级，因此非常高效。中图随着硬件故障程度的增加，解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练，而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行）。右图：在真实世界的实验中，使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎

标签：人工智能转载

问题描述：

Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上，并在这些 "孤岛 "之间进行异步数据流，从而隔离了局部中断，使系统的其他部分能够继续高效地学习。

因此，在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是，Decoupled DiLoCo 不会出现通信延迟，而这种延迟会使以前的分布式方法（如数据并行）在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长，我们正在探索多种方法，以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上：Pathways 引入了基于异步数据流的分布式人工智能系统，而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽，使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起，更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上，可以在独立的计算岛（称为学习单元）上实现异步训练，这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中，我们使用了一种名为 "混沌工程 "的方法，在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后，解耦 DiLoCo 继续执行训练过程，并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明，当硬件发生故障时，该系统能够保持比传统训练方法更高的学习集群可用性，同时最终提供与基准水平相同的机器学习（ML）性能。

image2592×1144 138 KB^[1]

解耦 DiLoCo 不仅对故障的恢复能力更强，而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络（使用数据中心设施之间现有的互联网连接即可达到这一水平，而不需要在设施之间新建定制网络基础设施）在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是，该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期，避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌，我们采用全栈式方法进行人工智能培训，包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起，我们取得了越来越多的成果。

除了效率和弹性，这种训练模式还能在一次训练运行中混合使用不同的硬件代，如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命，还增加了可用于模型训练的总计算量。在我们的实验中，以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配，这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是，由于新一代硬件不会同时到达各个地方，因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

图 2：左图：Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级，因此非常高效。中图随着硬件故障程度的增加，解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练，而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行）。右图：在真实世界的实验中，使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎

网友解答：

--【壹】--：

Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上，并在这些 "孤岛 "之间进行异步数据流，从而隔离了局部中断，使系统的其他部分能够继续高效地学习。

因此，在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是，Decoupled DiLoCo 不会出现通信延迟，而这种延迟会使以前的分布式方法（如数据并行）在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长，我们正在探索多种方法，以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上：Pathways 引入了基于异步数据流的分布式人工智能系统，而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽，使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起，更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上，可以在独立的计算岛（称为学习单元）上实现异步训练，这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中，我们使用了一种名为 "混沌工程 "的方法，在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后，解耦 DiLoCo 继续执行训练过程，并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明，当硬件发生故障时，该系统能够保持比传统训练方法更高的学习集群可用性，同时最终提供与基准水平相同的机器学习（ML）性能。

image2592×1144 138 KB^[1]

解耦 DiLoCo 不仅对故障的恢复能力更强，而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络（使用数据中心设施之间现有的互联网连接即可达到这一水平，而不需要在设施之间新建定制网络基础设施）在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是，该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期，避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌，我们采用全栈式方法进行人工智能培训，包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起，我们取得了越来越多的成果。

除了效率和弹性，这种训练模式还能在一次训练运行中混合使用不同的硬件代，如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命，还增加了可用于模型训练的总计算量。在我们的实验中，以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配，这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是，由于新一代硬件不会同时到达各个地方，因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

图 2：左图：Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级，因此非常高效。中图随着硬件故障程度的增加，解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练，而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行）。右图：在真实世界的实验中，使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎

标签：人工智能转载

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

大规模开发容错性更强的异步培训

推动人工智能培训基础设施的发展

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

大规模开发容错性更强的异步培训

推动人工智能培训基础设施的发展

Decoupled DiLoCo for Resilient Distributed Pre-training

相关推荐

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

大规模开发容错性更强的异步培训

推动人工智能培训基础设施的发展

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

大规模开发容错性更强的异步培训

推动人工智能培训基础设施的发展

Decoupled DiLoCo for Resilient Distributed Pre-training

相关推荐