如何设计一个适用于长尾词的神经网络参数初始化策略?

2026-04-02 13:450阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计4002个文字,预计阅读时间需要17分钟。

如何设计一个适用于长尾词的神经网络参数初始化策略?

文章目录过大或过小的问题初始化策略:

1. 所有的参数初始化为0或相同的常量。

2.随机初始化。

3.批标准化(BatchNormalization)。

4.Xavier限制均匀分布正态分布。

5.MSRA正态分布均值为0,方差+目录+过大或过小的初始化+1。

文章目录过大或者过小的初始化1.所有的参数初始化为0或者相同的常数2.随机初始化3.BatchNormalization4.Xavier限制均匀分布正态分布5.MSRA正态分布均匀

文章目录

      • 过大或者过小的初始化
      • 1. 所有的参数初始化为0或者相同的常数
      • 2. 随机初始化
      • 3. Batch Normalization
      • 4. Xavier
        • 限制
        • 均匀分布
        • 正态分布
      • 5. MSRA
        • 正态分布
        • 均匀分布
        • 总结及使用的概率公式
神经网络模型一般依靠随机梯度下降进行模型训练和参数更新,网络的最终性能与收敛得到的最优解直接相关,而收敛结果实际上又很大程度取决于网络参数的最开始的初始化。理想的网络参数初始化使模型训练事半功倍,相反,糟糕的初始化方案不仅会影响网络收敛,甚至会导致梯度弥散或爆炸。

参数初始化的理想状态是参数正负各半,期望为0。

过大或者过小的初始化

如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值。

阅读全文

本文共计4002个文字,预计阅读时间需要17分钟。

如何设计一个适用于长尾词的神经网络参数初始化策略?

文章目录过大或过小的问题初始化策略:

1. 所有的参数初始化为0或相同的常量。

2.随机初始化。

3.批标准化(BatchNormalization)。

4.Xavier限制均匀分布正态分布。

5.MSRA正态分布均值为0,方差+目录+过大或过小的初始化+1。

文章目录过大或者过小的初始化1.所有的参数初始化为0或者相同的常数2.随机初始化3.BatchNormalization4.Xavier限制均匀分布正态分布5.MSRA正态分布均匀

文章目录

      • 过大或者过小的初始化
      • 1. 所有的参数初始化为0或者相同的常数
      • 2. 随机初始化
      • 3. Batch Normalization
      • 4. Xavier
        • 限制
        • 均匀分布
        • 正态分布
      • 5. MSRA
        • 正态分布
        • 均匀分布
        • 总结及使用的概率公式
神经网络模型一般依靠随机梯度下降进行模型训练和参数更新,网络的最终性能与收敛得到的最优解直接相关,而收敛结果实际上又很大程度取决于网络参数的最开始的初始化。理想的网络参数初始化使模型训练事半功倍,相反,糟糕的初始化方案不仅会影响网络收敛,甚至会导致梯度弥散或爆炸。

参数初始化的理想状态是参数正负各半,期望为0。

过大或者过小的初始化

如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值。

阅读全文