语言: English | 中文

强化学习导论

这份面向初学者的强化学习教程将帮助您全面了解强化学习的概念、理论、原理和发展历史，并教您实现一些代表性的强化学习算法，如DQN、DDPG、SAC和PPO等。

在开始学习之前，本教程建议您具备一定的概率统计理论和机器学习基础知识。具体而言，您应熟悉期望值、贝叶斯推断和马尔可夫链等概念。此外，对神经网络和激活函数的基本知识也会对您的学习过程有所帮助。如果您在这些知识点上还不太熟悉，本教程中会提供相关说明的链接，帮助您更好地理解和应用强化学习算法。

让我们开始吧！

本开源教程遵循GPL-3协议，欢迎更多的人对本仓库做出贡献。

快速开始

文件夹结构

本仓库中每个文件夹的功能如下:

.
|-- checkpoints     # 训练好的模型参数
|-- examples        # 训练、加载、测试模型的样例代码
|-- logs                # 模型训练过程中的平均奖励变化曲线
|-- rllib               # 强化学习算法的代码脚本
`-- tutorials       # 教程文档

训练环境配置

最简单的方式是

pip install -r requirements.txt

如果有conda，也可以使用

conda env create -f environment.yml

特别地，如果您想在Mujoco的环境中训练模型，请参考Mujoco and Mujoco-py Installation Instructions.

运行`./demo_rl/`中的文件

查看训练记录

tensorboard --logdir ./logs --port 6006

动机

参考文献

以下是本教程制作过程中的所有参考资料

书本

[1] 强化学习导论: Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.

论文

[1] Q-learning: Watkins, Christopher JCH, and Peter Dayan. "Q-learning." Machine learning 8.3 (1992): 279-292.

[2] DQN论文初稿: Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013).

[3] DQN最终版本: Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." nature 518.7540 (2015): 529-533.

[4] Rainbow: Hessel, Matteo, et al. "Rainbow: Combining improvements in deep reinforcement learning." Thirty-second AAAI conference on artificial intelligence. 2018.

[5] Atari环境预处理: Machado, Marlos C., et al. "Revisiting the arcade learning environment: Evaluation protocols and open problems for general agents." Journal of Artificial Intelligence Research 61 (2018): 523-562.

[6] DDPG: Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015).

[7] SAC: Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International conference on machine learning. PMLR, 2018.

[8] PPO: Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

博客与网站

[1] Reinforcement Learning Coach

[2] Rainbow is all you need!

[3] The 37 Implementation Details of Proximal Policy Optimization

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.zh.md

README.zh.md

强化学习导论

目录

快速开始

文件夹结构

推荐配置

训练环境配置

运行`./demo_rl/`中的文件

查看训练记录

动机

参考文献

书本

论文

博客与网站

Files

README.zh.md

Latest commit

History

README.zh.md

File metadata and controls

强化学习导论

目录

快速开始

文件夹结构

推荐配置

训练环境配置

运行./demo_rl/中的文件

查看训练记录

动机

参考文献

书本

论文

博客与网站

运行`./demo_rl/`中的文件