单机多卡与多机多卡技术如何实现艺术融合?

2026-05-25 18:520阅读0评论SEO教程
  • 内容介绍
  • 相关推荐

本文共计1828个文字,预计阅读时间需要8分钟。

单机多卡与多机多卡技术如何实现艺术融合?

随着触碰到模型的模型规模越来越大,自然就会触碰到这种技术。记录下自己的踩坑过程,当看到多卡跑通后,那种苦尽甘来的感觉还是令人欣慰的。我们先来说一下单机多卡+Hugging Face上的操作。

随着接触到的模型越来越大,自然就会接触到这种技术。

记录下自己的踩坑过程,当看到多机多卡跑通后,那种苦尽甘来的感觉还是挺舒服的。

我们首先来说一下单机多卡

huggingface上面有大佬上传了中文的BigBird的权重,想尝试能够处理的序列最长长度为4096的模型,但是放到单张卡里面batch_size基本上只能设置成2(16GB),所以为了让梯度下降更稳定,决定使用多卡进行训练。本来是想尝试把模型切成两半,分别放到两张卡里面,但是奈何自己没有能力把bigbird转换成nn.Sequential的样子的类型,所以就放弃了,转用DDP(Distributed Data Parallelism)。

(之后有关注了huggingface的Accelerate和另一个很有名气的Colossal-AI,但是都会有同样的bug)

我是参考这篇文章的:Distributed Training in PyTorch (Distributed Data Parallel) | by Praneet Bomma | Analytics Vidhya | Medium(良心文章,认真参考一次就跑通了)

现在来从头开始,跑通单机多卡。

阅读全文

本文共计1828个文字,预计阅读时间需要8分钟。

单机多卡与多机多卡技术如何实现艺术融合?

随着触碰到模型的模型规模越来越大,自然就会触碰到这种技术。记录下自己的踩坑过程,当看到多卡跑通后,那种苦尽甘来的感觉还是令人欣慰的。我们先来说一下单机多卡+Hugging Face上的操作。

随着接触到的模型越来越大,自然就会接触到这种技术。

记录下自己的踩坑过程,当看到多机多卡跑通后,那种苦尽甘来的感觉还是挺舒服的。

我们首先来说一下单机多卡

huggingface上面有大佬上传了中文的BigBird的权重,想尝试能够处理的序列最长长度为4096的模型,但是放到单张卡里面batch_size基本上只能设置成2(16GB),所以为了让梯度下降更稳定,决定使用多卡进行训练。本来是想尝试把模型切成两半,分别放到两张卡里面,但是奈何自己没有能力把bigbird转换成nn.Sequential的样子的类型,所以就放弃了,转用DDP(Distributed Data Parallelism)。

(之后有关注了huggingface的Accelerate和另一个很有名气的Colossal-AI,但是都会有同样的bug)

我是参考这篇文章的:Distributed Training in PyTorch (Distributed Data Parallel) | by Praneet Bomma | Analytics Vidhya | Medium(良心文章,认真参考一次就跑通了)

现在来从头开始,跑通单机多卡。

阅读全文