如何设计一个适用于长尾词的神经网络参数初始化策略?
- 内容介绍
- 文章标签
- 相关推荐
本文共计4002个文字,预计阅读时间需要17分钟。
文章目录过大或过小的问题初始化策略:
1. 所有的参数初始化为0或相同的常量。
2.随机初始化。
3.批标准化(BatchNormalization)。
4.Xavier限制均匀分布正态分布。
5.MSRA正态分布均值为0,方差+目录+过大或过小的初始化+1。
文章目录过大或者过小的初始化1.所有的参数初始化为0或者相同的常数2.随机初始化3.BatchNormalization4.Xavier限制均匀分布正态分布5.MSRA正态分布均匀文章目录
- 过大或者过小的初始化
- 1. 所有的参数初始化为0或者相同的常数
- 2. 随机初始化
- 3. Batch Normalization
- 4. Xavier
- 限制
- 均匀分布
- 正态分布
- 5. MSRA
- 正态分布
- 均匀分布
- 总结及使用的概率公式
参数初始化的理想状态是参数正负各半,期望为0。
过大或者过小的初始化
如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值。
本文共计4002个文字,预计阅读时间需要17分钟。
文章目录过大或过小的问题初始化策略:
1. 所有的参数初始化为0或相同的常量。
2.随机初始化。
3.批标准化(BatchNormalization)。
4.Xavier限制均匀分布正态分布。
5.MSRA正态分布均值为0,方差+目录+过大或过小的初始化+1。
文章目录过大或者过小的初始化1.所有的参数初始化为0或者相同的常数2.随机初始化3.BatchNormalization4.Xavier限制均匀分布正态分布5.MSRA正态分布均匀文章目录
- 过大或者过小的初始化
- 1. 所有的参数初始化为0或者相同的常数
- 2. 随机初始化
- 3. Batch Normalization
- 4. Xavier
- 限制
- 均匀分布
- 正态分布
- 5. MSRA
- 正态分布
- 均匀分布
- 总结及使用的概率公式
参数初始化的理想状态是参数正负各半,期望为0。
过大或者过小的初始化
如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值。

