R-Drop论文复现步骤详解？

2026-05-07 23:440阅读0评论SEO教程

内容介绍
文章标签
相关推荐

本文共计410个文字，预计阅读时间需要2分钟。

论文贡献

由于深度神经网络非常容易过拟合，因此 Dropout 方法采用了随机丢弃每层的部分神经元，以此来避免在训练过程中的过拟合问题。正是因为每次随机丢弃部分神经元，导致每次丢弃后产生的子模型都不一样，所以 Dropout 的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。基于 Dropout 的这种特殊方式对网络带来的随机性，研究员们提出了 R-Drop 来进一步对（子模型）网络的输出预测进行了正则约束。

实现思路

与传统作用于神经元（Dropout）或者模型参数（DropConnect）上的约束方法不同，R-Drop 作用于模型的输出层，弥补了 Dropout 在训练和测试时的不一致性。简单来说就是在每个 mini-batch 中，每个数据样本过两次带有 Dropout 的同一个模型，R-Drop 再使用 KL-divergence 约束两次的输出一致。既约束了由于 Dropout 带来的两个随机子模型的输出一致性。

论文公式

模型的训练目标包含两个部分，一个是两次输出之间的KL散度，如下：

另一个是模型自有的损失函数交叉熵，如下：

总损失函数为：

标签：Git AI red type

本文共计410个文字，预计阅读时间需要2分钟。

论文贡献

实现思路

论文公式

模型的训练目标包含两个部分，一个是两次输出之间的KL散度，如下：

另一个是模型自有的损失函数交叉熵，如下：

总损失函数为：

标签：Git AI red type

论文贡献

实现思路

论文公式

相关推荐

论文贡献

实现思路

论文公式

相关推荐