强化学习在处理长尾分布问题时，有哪些具体策略和算法可以应用？

2026-04-11 10:390阅读0评论SEO问题

本文共计2980个文字，预计阅读时间需要12分钟。

持续学习强化学习，介绍强化学习两大分支之一的价值学习，以及价值学习的一种经典实现方式DQN，及DQN的训练算法TD+learning。价值学习2。价值学习2.1 De

继续学习强化学习，介绍强化学习两大分支之一的价值学习，以及价值学习的一种经典实现方式DQN，以及DQN的训练算法TD learning.

Value-Based Reinforcement Learning : 价值学习

2. 价值学习 2.1 Deep Q-Network DQN

其实就是用一个神经网络来近似 \(Q*\) 函数。

agent 的目标是打赢游戏，如果用强化学习的语言来讲，就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。

a. Q-star Function

问题：假设知道了 \(Q^*(s,a)\) 函数，哪个是最好的动作？

显然，最好的动作是\(a^* = \mathop{argmax}\limits_{a}Q^*(s,a)\) ，

\(Q^*(s,a)\)可以给每个动作打分，就像一个先知，能告诉你每个动作带来的平均回报，选平均回报最高的那个动作。

但事实是，每个人都无法预测未来，我们并不知道\(Q^*(s,a)\)。而价值学习就在于学习出一个函数来近似\(Q^*(s,a)\) 作决策。