Decoupled DiLoCo:弹性分布式人工智能训练 新范式

2026-04-29 09:122阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:
Google DeepMind – 23 Apr 26

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Google’s new distributed architecture keeps AI training runs on track across distant data centers, with exceptional efficiency – even when hardware fails.

[!quote]+
今天,在一篇新论文中,我们很高兴与大家分享一种解决这一问题的新方法,即去耦合 DiLoCo(分布式低通信)。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上,并在这些 "孤岛 "之间进行异步数据流,从而隔离了局部中断,使系统的其他部分能够继续高效地学习。

因此,在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是,Decoupled DiLoCo 不会出现通信延迟,而这种延迟会使以前的分布式方法(如数据并行)在全球范围内变得不切实际。

随着前沿模型的规模和复杂性不断增长,我们正在探索多种方法,以便在更多计算、地点和不同硬件上训练模型。

https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animation_assets_dark.webm

大规模开发容错性更强的异步培训

在两个早期进展的基础之上:Pathways 引入了基于异步数据流的分布式人工智能系统,而 DiLoCo 则大大降低了分布式数据中心之间所需的带宽,使在遥远地点训练大型语言模型成为现实。