神经网络与大语言模型初步 - 第一章神经网络 6

2026-04-11 11:550阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

1.5 学习率

1.5.1 学习率的影响

学习率 \eta 是训练中最重要的超参数之一（超参数是指人为设定的参数）。我们仍以山谷找谷底为例：

想象一个人站在一片山地上，周围浓雾弥漫，看不清山的地形，而他的目标是走到山的谷底。唯一能做的，通过脚底感知脚下这片地的坡度，然后朝着最陡的下坡方向走一小步。重复这个过程，就可以一步步走到某个低洼处。

梯度下降法就是这个思路：

“山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”

"脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}

"朝最陡的下坡方向走一小步"就是参数更新

（当然通过上一节的学习，我们知道，这个例子里的高度，其实就是损失函数的大小）

学习率太大：每一步都移动很多，可能直接跨过谷底，在两侧来回震荡，甚至越走越高（发散）
学习率太小：每一步都移动很少，收敛慢，训练时间很大，且容易陷在某个局部低点（类比极小值和最小值）出不来
学习率适中：高度稳步下降，既不震荡也不过慢

1.5.2 学习率衰减与 Warmup

上面讲了，学习率对训练影响很大，需要适中的学习率才能让训练稳定。

阅读全文

标签：人工智能

问题描述：

1.5 学习率

1.5.1 学习率的影响

学习率 \eta 是训练中最重要的超参数之一（超参数是指人为设定的参数）。我们仍以山谷找谷底为例：

想象一个人站在一片山地上，周围浓雾弥漫，看不清山的地形，而他的目标是走到山的谷底。唯一能做的，通过脚底感知脚下这片地的坡度，然后朝着最陡的下坡方向走一小步。重复这个过程，就可以一步步走到某个低洼处。

梯度下降法就是这个思路：

“山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”

"脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}

"朝最陡的下坡方向走一小步"就是参数更新

（当然通过上一节的学习，我们知道，这个例子里的高度，其实就是损失函数的大小）

学习率太大：每一步都移动很多，可能直接跨过谷底，在两侧来回震荡，甚至越走越高（发散）
学习率太小：每一步都移动很少，收敛慢，训练时间很大，且容易陷在某个局部低点（类比极小值和最小值）出不来
学习率适中：高度稳步下降，既不震荡也不过慢

1.5.2 学习率衰减与 Warmup

上面讲了，学习率对训练影响很大，需要适中的学习率才能让训练稳定。

阅读全文

标签：人工智能

1.5 学习率

1.5.1 学习率的影响

1.5.2 学习率衰减与 Warmup

相关推荐

1.5 学习率

1.5.1 学习率的影响

1.5.2 学习率衰减与 Warmup

相关推荐