强化学习在处理长尾分布问题时,有哪些具体策略和算法可以应用?

2026-04-11 10:390阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2980个文字,预计阅读时间需要12分钟。

强化学习在处理长尾分布问题时,有哪些具体策略和算法可以应用?

持续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,及DQN的训练算法TD+learning。价值学习2。价值学习2.1 De

继续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,以及DQN的训练算法TD learning.

Value-Based Reinforcement Learning : 价值学习

2. 价值学习 2.1 Deep Q-Network DQN

其实就是用一个神经网络来近似 \(Q*\) 函数。

agent 的目标是打赢游戏,如果用强化学习的语言来讲,就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。

a. Q-star Function

问题:假设知道了 \(Q^*(s,a)\) 函数,哪个是最好的动作?

显然,最好的动作是\(a^* = \mathop{argmax}\limits_{a}Q^*(s,a)\) ,

\(Q^*(s,a)\)可以给每个动作打分,就像一个先知,能告诉你每个动作带来的平均回报,选平均回报最高的那个动作。

但事实是,每个人都无法预测未来,我们并不知道\(Q^*(s,a)\)。而价值学习就在于学习出一个函数来近似\(Q^*(s,a)\) 作决策。

  • 解决:Deep Q-network(DQN),即用一个神经网络 \(Q(s,a;w)\)来近似 \(Q^*(s,a)\) 函数。
  • 神经网络参数是 w ,输入是状态 s,输出是对所有可能动作的打分,每一个动作对应一个分数。
阅读全文

本文共计2980个文字,预计阅读时间需要12分钟。

强化学习在处理长尾分布问题时,有哪些具体策略和算法可以应用?

持续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,及DQN的训练算法TD+learning。价值学习2。价值学习2.1 De

继续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,以及DQN的训练算法TD learning.

Value-Based Reinforcement Learning : 价值学习

2. 价值学习 2.1 Deep Q-Network DQN

其实就是用一个神经网络来近似 \(Q*\) 函数。

agent 的目标是打赢游戏,如果用强化学习的语言来讲,就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。

a. Q-star Function

问题:假设知道了 \(Q^*(s,a)\) 函数,哪个是最好的动作?

显然,最好的动作是\(a^* = \mathop{argmax}\limits_{a}Q^*(s,a)\) ,

\(Q^*(s,a)\)可以给每个动作打分,就像一个先知,能告诉你每个动作带来的平均回报,选平均回报最高的那个动作。

但事实是,每个人都无法预测未来,我们并不知道\(Q^*(s,a)\)。而价值学习就在于学习出一个函数来近似\(Q^*(s,a)\) 作决策。

  • 解决:Deep Q-network(DQN),即用一个神经网络 \(Q(s,a;w)\)来近似 \(Q^*(s,a)\) 函数。
  • 神经网络参数是 w ,输入是状态 s,输出是对所有可能动作的打分,每一个动作对应一个分数。
阅读全文