强化学习DDPG算法在倒立摆控制中的应用原理是什么？

2026-05-07 05:040阅读0评论SEO基础

内容介绍
文章标签
相关推荐

本文共计333个文字，预计阅读时间需要2分钟。

强化学习DDPG算法在倒立摆控制中的应用原理是什么？

相关专题

倒立摆问题：

倒立摆问题的经典的连续控制问题，钟摆以随机位置开始，目标是将其向上摆动，使其保持直立。其状态空间为3，动作空间为1（因为是连续的，有范围）。具体可以参考下图：

项目目标

使用深度神经网络DPG训练模型，也就是DDPG方法，使其在倒立摆环境中能够获得较好的奖励。

自举：TD目标用价值网络算出来的，而它又被用于更新价值网络 q 本身，这属于自举。自举会造成偏差的传播。
最大化：在训练策略网络的时候，我们希望策略网络计算出的动作得到价值网络尽量高的评价。在求解的过程中导致高估的出现。

自举与最大化的分析可参考王书的10.3.3节，分析的挺不错，但是推理比较复杂，这里就不再描述了，主要把结论记住就好。(陶渊明说读书要不求甚解，嘿嘿)

标签：Python AI red c网 writer

本文共计333个文字，预计阅读时间需要2分钟。

强化学习DDPG算法在倒立摆控制中的应用原理是什么？

相关专题

倒立摆问题：

倒立摆问题的经典的连续控制问题，钟摆以随机位置开始，目标是将其向上摆动，使其保持直立。其状态空间为3，动作空间为1（因为是连续的，有范围）。具体可以参考下图：

项目目标

使用深度神经网络DPG训练模型，也就是DDPG方法，使其在倒立摆环境中能够获得较好的奖励。

自举：TD目标用价值网络算出来的，而它又被用于更新价值网络 q 本身，这属于自举。自举会造成偏差的传播。
最大化：在训练策略网络的时候，我们希望策略网络计算出的动作得到价值网络尽量高的评价。在求解的过程中导致高估的出现。

自举与最大化的分析可参考王书的10.3.3节，分析的挺不错，但是推理比较复杂，这里就不再描述了，主要把结论记住就好。(陶渊明说读书要不求甚解，嘿嘿)

标签：Python AI red c网 writer