云ModelArts平台上,如何实现PPO算法来玩超级马里奥兄弟?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2572个文字,预计阅读时间需要11分钟。
@toc一. 前言我们利用PPO算法来玩《Super Mario Bros》(超级马里奥兄弟)。目前来看,对于大部分关卡,智能体都能在1500个episode内学会过关。
二. PPO算法的基本结构PPO算法有两种主角:一种是策略网络,用于选择动作;另一种是价值网络,用于估计状态的价值。
@[toc]
一.前言
我们利用PPO算法来玩“Super Mario Bros”(超级马里奥兄弟)。目前来看,对于绝大部分关卡,智能体都可以在1500个episode内学会过关。
二.PPO算法的基本结构
PPO算法有两种主要形式:PPO-Penalty和PPO-Clip(PPO2)。在这里,我们讨论PPO-Clip(OpenAI使用的主要形式)。 PPO的主要特点如下:PPO属于on-policy算法PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长:更新策略:探索策略 PPO采用随机探索策略。优势函数 表示在状态s下采取动作a,相较于其他动作有多少优势,如果>0,则当前动作比平均动作好,反之,则差
算法主要流程大致如下:
三.进入实操
我们需要先进入我们的华为云实例网址,使用PPO算法玩超级马里奥兄弟我们需要登录华为云账号,点击订阅这个实例,然后才能点击Run in ModelArts,进入 JupyterLab 页面。我们进入页面,先需要等待,等待30s之后弹出如下页面,让我们选择合适的运行环境,我们选择免费的就好,点击切换规格。等待切换规格完成:等待初始化完成...如下图,等待初始化完成。
本文共计2572个文字,预计阅读时间需要11分钟。
@toc一. 前言我们利用PPO算法来玩《Super Mario Bros》(超级马里奥兄弟)。目前来看,对于大部分关卡,智能体都能在1500个episode内学会过关。
二. PPO算法的基本结构PPO算法有两种主角:一种是策略网络,用于选择动作;另一种是价值网络,用于估计状态的价值。
@[toc]
一.前言
我们利用PPO算法来玩“Super Mario Bros”(超级马里奥兄弟)。目前来看,对于绝大部分关卡,智能体都可以在1500个episode内学会过关。
二.PPO算法的基本结构
PPO算法有两种主要形式:PPO-Penalty和PPO-Clip(PPO2)。在这里,我们讨论PPO-Clip(OpenAI使用的主要形式)。 PPO的主要特点如下:PPO属于on-policy算法PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长:更新策略:探索策略 PPO采用随机探索策略。优势函数 表示在状态s下采取动作a,相较于其他动作有多少优势,如果>0,则当前动作比平均动作好,反之,则差
算法主要流程大致如下:
三.进入实操
我们需要先进入我们的华为云实例网址,使用PPO算法玩超级马里奥兄弟我们需要登录华为云账号,点击订阅这个实例,然后才能点击Run in ModelArts,进入 JupyterLab 页面。我们进入页面,先需要等待,等待30s之后弹出如下页面,让我们选择合适的运行环境,我们选择免费的就好,点击切换规格。等待切换规格完成:等待初始化完成...如下图,等待初始化完成。

