Decoupled DiLoCo:弹性分布式人工智能训练 新范式

2026-04-29 09:123阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:
Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天,在一篇新论文中,我们很高兴与大家分享一种解决这一问题的新方法,即去耦合 DiLoCo(分布式低通信)。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上,并在这些 "孤岛 "之间进行异步数据流,从而隔离了局部中断,使系统的其他部分能够继续高效地学习。

因此,在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是,Decoupled DiLoCo 不会出现通信延迟,而这种延迟会使以前的分布式方法(如数据并行)在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长,我们正在探索多种方法,以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上:Pathways 引入了基于异步数据流的分布式人工智能系统,而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽,使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起,更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上,可以在独立的计算岛(称为学习单元)上实现异步训练,这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中,我们使用了一种名为 "混沌工程 "的方法,在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后,解耦 DiLoCo 继续执行训练过程,并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明,当硬件发生故障时,该系统能够保持比传统训练方法更高的学习集群可用性,同时最终提供与基准水平相同的机器学习(ML)性能。

image2592×1144 138 KB[1]

解耦 DiLoCo 不仅对故障的恢复能力更强,而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络(使用数据中心设施之间现有的互联网连接即可达到这一水平,而不需要在设施之间新建定制网络基础设施)在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是,该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期,避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌,我们采用全栈式方法进行人工智能培训,包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起,我们取得了越来越多的成果。

除了效率和弹性,这种训练模式还能在一次训练运行中混合使用不同的硬件代,如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命,还增加了可用于模型训练的总计算量。在我们的实验中,以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配,这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是,由于新一代硬件不会同时到达各个地方,因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

Modern large-scale language model pre-training relies heavily on the single program multiple data (SPMD) paradigm, which requires tight coupling across accelerators. Due to this coupling, transient slowdowns, hardware failures, and synchronization...


  1. 图 2:左图:Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级,因此非常高效。中图随着硬件故障程度的增加,解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练,而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行)。右图:在真实世界的实验中,使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎

网友解答:
--【壹】--:
Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天,在一篇新论文中,我们很高兴与大家分享一种解决这一问题的新方法,即去耦合 DiLoCo(分布式低通信)。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上,并在这些 "孤岛 "之间进行异步数据流,从而隔离了局部中断,使系统的其他部分能够继续高效地学习。

因此,在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是,Decoupled DiLoCo 不会出现通信延迟,而这种延迟会使以前的分布式方法(如数据并行)在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长,我们正在探索多种方法,以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上:Pathways 引入了基于异步数据流的分布式人工智能系统,而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽,使在遥远地点训练大型语言模型成为现实。

Decoupled DiLoCo 将这些理念结合在一起,更灵活地大规模训练人工智能模型。它建立在 Pathways 的基础上,可以在独立的计算岛(称为学习单元)上实现异步训练,这样一个区域的芯片故障就不会打断其他区域的进度。

这种基础设施还能自我修复。在测试中,我们使用了一种名为 "混沌工程 "的方法,在训练运行过程中引入人为的硬件故障。在整个学习单元丢失后,解耦 DiLoCo 继续执行训练过程,并在它们重新上线后无缝地重新整合。

使用 Gemma 4 模型对 Decoupled DiLoCo 进行的测试表明,当硬件发生故障时,该系统能够保持比传统训练方法更高的学习集群可用性,同时最终提供与基准水平相同的机器学习(ML)性能。

image2592×1144 138 KB[1]

解耦 DiLoCo 不仅对故障的恢复能力更强,而且对于执行生产级的全分布式预训练也很实用。我们使用 2-5 Gbps 的广域网络(使用数据中心设施之间现有的互联网连接即可达到这一水平,而不需要在设施之间新建定制网络基础设施)在美国四个独立地区成功地训练了一个 120 亿参数的模型。值得注意的是,该系统实现这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需的通信纳入了更长的计算周期,避免了系统的一部分必须等待另一部分的 "阻塞 "瓶颈。

推动人工智能培训基础设施的发展

在谷歌,我们采用全栈式方法进行人工智能培训,包括硬件、软件基础设施和研究。通过重新思考如何将这些层级结合在一起,我们取得了越来越多的成果。

除了效率和弹性,这种训练模式还能在一次训练运行中混合使用不同的硬件代,如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的使用寿命,还增加了可用于模型训练的总计算量。在我们的实验中,以不同速度运行的不同世代的芯片仍能与单芯片类型的训练运行的 ML 性能相匹配,这确保了即使是较旧的硬件也能有意义地加速人工智能训练。

更重要的是,由于新一代硬件不会同时到达各个地方,因此能够进行跨代培训可以缓解经常出现的后勤和能力瓶颈问题。

arXiv.org

Decoupled DiLoCo for Resilient Distributed Pre-training

Modern large-scale language model pre-training relies heavily on the single program multiple data (SPMD) paradigm, which requires tight coupling across accelerators. Due to this coupling, transient slowdowns, hardware failures, and synchronization...


  1. 图 2:左图:Decoupled DiLoCo 方法所需的带宽比传统训练方法少几个数量级,因此非常高效。中图随着硬件故障程度的增加,解耦 DiLoCo 可继续提供高水平的 "高吞吐量 "或有用的训练,而其他方法的吞吐量则会下降。(前两个图表基于模拟训练运行)。右图:在真实世界的实验中,使用 Decoupled DiLoCo 训练的 Gemma 4 模型的基准 ML 性能与传统训练方法的性能相当。 ↩︎