强化学习在处理长尾分布问题时,有哪些具体策略和算法可以应用?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2980个文字,预计阅读时间需要12分钟。
持续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,及DQN的训练算法TD+learning。价值学习2。价值学习2.1 De
继续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,以及DQN的训练算法TD learning.Value-Based Reinforcement Learning : 价值学习
2. 价值学习 2.1 Deep Q-Network DQN其实就是用一个神经网络来近似 \(Q*\) 函数。
agent 的目标是打赢游戏,如果用强化学习的语言来讲,就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。
a. Q-star Function问题:假设知道了 \(Q^*(s,a)\) 函数,哪个是最好的动作?
显然,最好的动作是\(a^* = \mathop{argmax}\limits_{a}Q^*(s,a)\) ,
\(Q^*(s,a)\)可以给每个动作打分,就像一个先知,能告诉你每个动作带来的平均回报,选平均回报最高的那个动作。
但事实是,每个人都无法预测未来,我们并不知道\(Q^*(s,a)\)。而价值学习就在于学习出一个函数来近似\(Q^*(s,a)\) 作决策。
- 解决:Deep Q-network(DQN),即用一个神经网络 \(Q(s,a;w)\)来近似 \(Q^*(s,a)\) 函数。
- 神经网络参数是 w ,输入是状态 s,输出是对所有可能动作的打分,每一个动作对应一个分数。
本文共计2980个文字,预计阅读时间需要12分钟。
持续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,及DQN的训练算法TD+learning。价值学习2。价值学习2.1 De
继续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,以及DQN的训练算法TD learning.Value-Based Reinforcement Learning : 价值学习
2. 价值学习 2.1 Deep Q-Network DQN其实就是用一个神经网络来近似 \(Q*\) 函数。
agent 的目标是打赢游戏,如果用强化学习的语言来讲,就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。
a. Q-star Function问题:假设知道了 \(Q^*(s,a)\) 函数,哪个是最好的动作?
显然,最好的动作是\(a^* = \mathop{argmax}\limits_{a}Q^*(s,a)\) ,
\(Q^*(s,a)\)可以给每个动作打分,就像一个先知,能告诉你每个动作带来的平均回报,选平均回报最高的那个动作。
但事实是,每个人都无法预测未来,我们并不知道\(Q^*(s,a)\)。而价值学习就在于学习出一个函数来近似\(Q^*(s,a)\) 作决策。
- 解决:Deep Q-network(DQN),即用一个神经网络 \(Q(s,a;w)\)来近似 \(Q^*(s,a)\) 函数。
- 神经网络参数是 w ,输入是状态 s,输出是对所有可能动作的打分,每一个动作对应一个分数。

