torch.optim灵活运用技巧，如何重写SGD并优化参数？

2026-05-29 00:000阅读0评论SEO资源

本文共计1067个文字，预计阅读时间需要5分钟。

torch.optim 的灵活运用详解：

1.基本用法：

- 构建一个优化器Optimizer，必须提供一个包含参数的迭代器。 - 然后指定优化器的参数，如学习率、权重衰减等。 - 最后，通过优化器更新模型参数。

torch.optim的灵活使用详解

1. 基本用法：

要构建一个优化器Optimizer，必须给它一个包含参数的迭代器来优化，然后，我们可以指定特定的优化选项，

例如学习速率，重量衰减值等。

注：如果要把model放在GPU中，需要在构建一个Optimizer之前就执行model.cuda()，确保优化器里面的参数也是在GPU中。

例子：

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)

2. 灵活的设置各层的学习率

将model中需要进行BP的层的参数送到torch.optim中，这些层不一定是连续的。

这个时候，Optimizer的参数不是一个可迭代的变量，而是一个可迭代的字典

(字典的key必须包含'params'(查看源码可以得知optimizer通过'params'访问parameters)，

其他的key就是optimizer可以接受的，比如说'lr','weight_decay')，可以将这些字典构成一个list，

这样就是一个可迭代的字典了。