神经网络与大语言模型初步 - 第一章 神经网络 6

2026-04-11 11:550阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

1.5 学习率

1.5.1 学习率的影响

学习率 \eta 是训练中最重要的超参数之一(超参数是指人为设定的参数)。我们仍以山谷找谷底为例:

想象一个人站在一片山地上,周围浓雾弥漫,看不清山的地形,而他的目标是走到山的谷底。唯一能做的,通过脚底感知脚下这片地的坡度,然后朝着最陡的下坡方向走一小步。重复这个过程,就可以一步步走到某个低洼处。

梯度下降法就是这个思路:

  • “山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”
  • "脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}
  • "朝最陡的下坡方向走一小步"就是参数更新

(当然通过上一节的学习,我们知道,这个例子里的高度,其实就是损失函数的大小

  • 学习率太大:每一步都移动很多,可能直接跨过谷底,在两侧来回震荡,甚至越走越高(发散)
  • 学习率太小:每一步都移动很少,收敛慢,训练时间很大,且容易陷在某个局部低点(类比 极小值 和 最小值)出不来
  • 学习率适中:高度稳步下降,既不震荡也不过慢

1.5.2 学习率衰减与 Warmup

上面讲了,学习率对训练影响很大,需要适中的学习率才能让训练稳定。

阅读全文
标签:人工智能
问题描述:

1.5 学习率

1.5.1 学习率的影响

学习率 \eta 是训练中最重要的超参数之一(超参数是指人为设定的参数)。我们仍以山谷找谷底为例:

想象一个人站在一片山地上,周围浓雾弥漫,看不清山的地形,而他的目标是走到山的谷底。唯一能做的,通过脚底感知脚下这片地的坡度,然后朝着最陡的下坡方向走一小步。重复这个过程,就可以一步步走到某个低洼处。

梯度下降法就是这个思路:

  • “山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”
  • "脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}
  • "朝最陡的下坡方向走一小步"就是参数更新

(当然通过上一节的学习,我们知道,这个例子里的高度,其实就是损失函数的大小

  • 学习率太大:每一步都移动很多,可能直接跨过谷底,在两侧来回震荡,甚至越走越高(发散)
  • 学习率太小:每一步都移动很少,收敛慢,训练时间很大,且容易陷在某个局部低点(类比 极小值 和 最小值)出不来
  • 学习率适中:高度稳步下降,既不震荡也不过慢

1.5.2 学习率衰减与 Warmup

上面讲了,学习率对训练影响很大,需要适中的学习率才能让训练稳定。

阅读全文
标签:人工智能