炼丹Trick的EMA原理和实现方法具体是怎样的？

2026-04-11 08:280阅读0评论SEO教程

本文共计1244个文字，预计阅读时间需要5分钟。

在深度学习训练过程中，同一模型反复训练可能产生不同效果。这是炼丹学中的一种现象。一些技巧可以帮助你更容易地提升SOTA（最先进）的效果。许多流行的开源代码已经集成了这些技巧。

在进行深度学习训练时，同一模型往往可以训练出不同的效果，这就是炼丹这件事的玄学所在。使用一些trick能够让你更容易追上目前SOTA的效果，一些流行的开源代码中已经集成了不少trick，值得学习一番。本节介绍EMA这一方法。

1.原理：

EMA也就是指数移动平均(Exponential moving average)。其公式非常简单，如下所示：

\(\theta_{\text{EMA}, t+1} = (1 - \lambda) \cdot \theta_{\text{EMA}, t} + \lambda \cdot \theta_{t}\)

\(\theta_{t}\)是t时刻的网络参数，\(\theta_{\text{EMA}, t}\)是t时刻滑动平均后的网络参数，那么t+1时刻的滑动平均结果就是这两者的加权融合。这里 \(\lambda\)通常会取接近于1的数，比如0.9995，数字越大平均的效果就比较强。

值得注意的是，这里可以看成有两个模型，基础模型其参数按照常规的前后向传播来更新，另外一个模型则是基础模型的滑动平均版本，它并不直接参与前后向传播，仅仅是利用基础模型的参数结果来更新自己。

本文共计1244个文字，预计阅读时间需要5分钟。

在进行深度学习训练时，同一模型往往可以训练出不同的效果，这就是炼丹这件事的玄学所在。使用一些trick能够让你更容易追上目前SOTA的效果，一些流行的开源代码中已经集成了不少trick，值得学习一番。本节介绍EMA这一方法。

1.原理：

EMA也就是指数移动平均(Exponential moving average)。其公式非常简单，如下所示：

\(\theta_{\text{EMA}, t+1} = (1 - \lambda) \cdot \theta_{\text{EMA}, t} + \lambda \cdot \theta_{t}\)