炼丹Trick的EMA原理和实现方法具体是怎样的?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1244个文字,预计阅读时间需要5分钟。
在深度学习训练过程中,同一模型反复训练可能产生不同效果。这是炼丹学中的一种现象。一些技巧可以帮助你更容易地提升SOTA(最先进)的效果。许多流行的开源代码已经集成了这些技巧。
1.原理:在进行深度学习训练时,同一模型往往可以训练出不同的效果,这就是炼丹这件事的玄学所在。使用一些trick能够让你更容易追上目前SOTA的效果,一些流行的开源代码中已经集成了不少trick,值得学习一番。本节介绍EMA这一方法。
EMA也就是指数移动平均(Exponential moving average)。其公式非常简单,如下所示:
\(\theta_{\text{EMA}, t+1} = (1 - \lambda) \cdot \theta_{\text{EMA}, t} + \lambda \cdot \theta_{t}\)
\(\theta_{t}\)是t时刻的网络参数,\(\theta_{\text{EMA}, t}\)是t时刻滑动平均后的网络参数,那么t+1时刻的滑动平均结果就是这两者的加权融合。这里 \(\lambda\)通常会取接近于1的数,比如0.9995,数字越大平均的效果就比较强。
值得注意的是,这里可以看成有两个模型,基础模型其参数按照常规的前后向传播来更新,另外一个模型则是基础模型的滑动平均版本,它并不直接参与前后向传播,仅仅是利用基础模型的参数结果来更新自己。
本文共计1244个文字,预计阅读时间需要5分钟。
在深度学习训练过程中,同一模型反复训练可能产生不同效果。这是炼丹学中的一种现象。一些技巧可以帮助你更容易地提升SOTA(最先进)的效果。许多流行的开源代码已经集成了这些技巧。
1.原理:在进行深度学习训练时,同一模型往往可以训练出不同的效果,这就是炼丹这件事的玄学所在。使用一些trick能够让你更容易追上目前SOTA的效果,一些流行的开源代码中已经集成了不少trick,值得学习一番。本节介绍EMA这一方法。
EMA也就是指数移动平均(Exponential moving average)。其公式非常简单,如下所示:
\(\theta_{\text{EMA}, t+1} = (1 - \lambda) \cdot \theta_{\text{EMA}, t} + \lambda \cdot \theta_{t}\)
\(\theta_{t}\)是t时刻的网络参数,\(\theta_{\text{EMA}, t}\)是t时刻滑动平均后的网络参数,那么t+1时刻的滑动平均结果就是这两者的加权融合。这里 \(\lambda\)通常会取接近于1的数,比如0.9995,数字越大平均的效果就比较强。
值得注意的是,这里可以看成有两个模型,基础模型其参数按照常规的前后向传播来更新,另外一个模型则是基础模型的滑动平均版本,它并不直接参与前后向传播,仅仅是利用基础模型的参数结果来更新自己。

