云ModelArts平台上，如何实现PPO算法来玩超级马里奥兄弟？

2026-06-11 00:340阅读0评论SEO教程

内容介绍
文章标签
相关推荐

本文共计2572个文字，预计阅读时间需要11分钟。

@toc一. 前言我们利用PPO算法来玩《Super Mario Bros》（超级马里奥兄弟）。目前来看，对于大部分关卡，智能体都能在1500个episode内学会过关。

二. PPO算法的基本结构PPO算法有两种主角：一种是策略网络，用于选择动作；另一种是价值网络，用于估计状态的价值。

@[toc]

一.前言

我们利用PPO算法来玩“Super Mario Bros”（超级马里奥兄弟）。目前来看，对于绝大部分关卡，智能体都可以在1500个episode内学会过关。

二.PPO算法的基本结构

PPO算法有两种主要形式：PPO-Penalty和PPO-Clip(PPO2)。在这里，我们讨论PPO-Clip（OpenAI使用的主要形式）。 PPO的主要特点如下：PPO属于on-policy算法PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长：更新策略：探索策略 PPO采用随机探索策略。优势函数表示在状态s下采取动作a，相较于其他动作有多少优势，如果>0,则当前动作比平均动作好，反之，则差

算法主要流程大致如下：

三.进入实操

我们需要先进入我们的华为云实例网址，使用PPO算法玩超级马里奥兄弟我们需要登录华为云账号，点击订阅这个实例，然后才能点击Run in ModelArts，进入 JupyterLab 页面。我们进入页面，先需要等待，等待30s之后弹出如下页面，让我们选择合适的运行环境，我们选择免费的就好，点击切换规格。等待切换规格完成：等待初始化完成...如下图，等待初始化完成。

阅读全文

标签：PPO 算法玩 “超级

本文共计2572个文字，预计阅读时间需要11分钟。

@toc一. 前言我们利用PPO算法来玩《Super Mario Bros》（超级马里奥兄弟）。目前来看，对于大部分关卡，智能体都能在1500个episode内学会过关。

二. PPO算法的基本结构PPO算法有两种主角：一种是策略网络，用于选择动作；另一种是价值网络，用于估计状态的价值。

@[toc]

一.前言

我们利用PPO算法来玩“Super Mario Bros”（超级马里奥兄弟）。目前来看，对于绝大部分关卡，智能体都可以在1500个episode内学会过关。

二.PPO算法的基本结构

算法主要流程大致如下：

三.进入实操

阅读全文

标签：PPO 算法玩 “超级

一.前言

二.PPO算法的基本结构

三.进入实操

相关推荐

一.前言

二.PPO算法的基本结构

三.进入实操

相关推荐