torch.optim灵活运用技巧,如何重写SGD并优化参数?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1067个文字,预计阅读时间需要5分钟。
torch.optim 的灵活运用详解:
1.基本用法:
- 构建一个优化器Optimizer,必须提供一个包含参数的迭代器。 - 然后指定优化器的参数,如学习率、权重衰减等。 - 最后,通过优化器更新模型参数。torch.optim的灵活使用详解
1. 基本用法:
要构建一个优化器Optimizer,必须给它一个包含参数的迭代器来优化,然后,我们可以指定特定的优化选项,
例如学习速率,重量衰减值等。
注:如果要把model放在GPU中,需要在构建一个Optimizer之前就执行model.cuda(),确保优化器里面的参数也是在GPU中。
例子:
optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
2. 灵活的设置各层的学习率
将model中需要进行BP的层的参数送到torch.optim中,这些层不一定是连续的。
这个时候,Optimizer的参数不是一个可迭代的变量,而是一个可迭代的字典
(字典的key必须包含'params'(查看源码可以得知optimizer通过'params'访问parameters),
其他的key就是optimizer可以接受的,比如说'lr','weight_decay'),可以将这些字典构成一个list,
这样就是一个可迭代的字典了。
本文共计1067个文字,预计阅读时间需要5分钟。
torch.optim 的灵活运用详解:
1.基本用法:
- 构建一个优化器Optimizer,必须提供一个包含参数的迭代器。 - 然后指定优化器的参数,如学习率、权重衰减等。 - 最后,通过优化器更新模型参数。torch.optim的灵活使用详解
1. 基本用法:
要构建一个优化器Optimizer,必须给它一个包含参数的迭代器来优化,然后,我们可以指定特定的优化选项,
例如学习速率,重量衰减值等。
注:如果要把model放在GPU中,需要在构建一个Optimizer之前就执行model.cuda(),确保优化器里面的参数也是在GPU中。
例子:
optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
2. 灵活的设置各层的学习率
将model中需要进行BP的层的参数送到torch.optim中,这些层不一定是连续的。
这个时候,Optimizer的参数不是一个可迭代的变量,而是一个可迭代的字典
(字典的key必须包含'params'(查看源码可以得知optimizer通过'params'访问parameters),
其他的key就是optimizer可以接受的,比如说'lr','weight_decay'),可以将这些字典构成一个list,
这样就是一个可迭代的字典了。

