📌 路线图 ⏱️ 6-9 个月 🎯 入门到高级

强化学习 (Reinforcement Learning)

从基础概念到深度强化学习，掌握智能体与环境交互学习的核心技术，应用于游戏 AI、机器人控制等领域。

#强化学习 #RL #深度强化学习 #游戏 AI #机器人

🗺️

结构化学习

共包含 5 个阶段、20 个知识点，循序渐进掌握核心技能。

⏱️

预计时长

推荐学习时长约为 6-9 个月，可根据自身节奏灵活调整。

🎯

关键能力

强化学习 · RL · 深度强化学习

交互式路线图

拖拽查看节点关系，点击节点了解详细说明。登录后可追踪学习进度与收藏路线图。

🔐 登录以保存进度

学习阶段拆解

5 个阶段 · 20 个节点

阶段 1

基础概念

强化学习的核心概念和数学基础

包含 4 个知识点

强化学习基础

理解强化学习的核心概念：智能体、环境、状态、动作、奖励

基础概念

⏱️ 1-2 周 🌱 入门

马尔可夫决策过程 (MDP)

掌握 MDP 的数学框架：状态转移、奖励函数、折扣因子

MDP 数学理论

⏱️ 1-2 周 🚀 中级

Bellman 方程

理解值函数的递归关系和 Bellman 最优性原理

Bellman 价值函数理论

⏱️ 1-2 周 🚀 中级

动态规划

学习 Policy Iteration 和 Value Iteration 算法

DP 算法规划

⏱️ 2 周 🚀 中级

阶段 2

经典算法

表格型强化学习算法

包含 4 个知识点

蒙特卡洛方法

基于采样的强化学习方法，不需要环境模型

Monte Carlo 无模型采样

⏱️ 2 周 🚀 中级

时序差分学习 (TD)

结合 MC 和 DP 的优势，在线学习价值函数

TD Learning 无模型在线学习

⏱️ 2-3 周 🚀 中级

Q-Learning

经典的 off-policy TD 算法，学习最优 Q 函数

Q-Learning Off-Policy 无模型

⏱️ 2-3 周 🚀 中级

SARSA

On-policy TD 算法，学习当前策略的 Q 函数

SARSA On-Policy TD

⏱️ 1-2 周 🚀 中级

阶段 3

深度强化学习

结合深度学习的现代强化学习算法

包含 7 个知识点

函数逼近

使用神经网络等函数逼近器处理连续状态空间

函数逼近神经网络连续空间

⏱️ 2-3 周 ⚡ 高级

DQN (Deep Q-Network)

使用深度学习的 Q-Learning，Experience Replay 和 Target Network

DQN Deep RL DeepMind

⏱️ 3-4 周 ⚡ 高级

策略梯度方法

直接优化策略参数，REINFORCE 算法

Policy Gradient REINFORCE Actor

⏱️ 3-4 周 ⚡ 高级

Actor-Critic 方法

结合价值函数和策略梯度，A3C、A2C 算法

Actor-Critic A3C A2C

⏱️ 3-4 周 ⚡ 高级

PPO (Proximal Policy Optimization)

OpenAI 提出的高效策略优化算法，工业界广泛使用

PPO OpenAI SOTA

⏱️ 3-4 周 ⚡ 高级

DDPG (连续控制)

处理连续动作空间的 Actor-Critic 算法

DDPG 连续控制机器人

⏱️ 2-3 周 ⚡ 高级

SAC (Soft Actor-Critic)

基于最大熵的 off-policy 算法，样本效率高

SAC 最大熵 Off-Policy

⏱️ 2-3 周 ⚡ 高级

阶段 4

高级话题

前沿研究方向和特殊应用场景

包含 4 个知识点

基于模型的强化学习

学习环境模型进行规划，提高样本效率

Model-Based Planning 效率

⏱️ 3-4 周 ⚡ 高级

多智能体强化学习

多个智能体协作或竞争的场景

Multi-Agent 协作博弈

⏱️ 3-4 周 ⚡ 高级

离线强化学习

从固定数据集学习，无需与环境交互

Offline RL Batch RL 数据驱动

⏱️ 2-3 周 ⚡ 高级

逆强化学习 (IRL)

从专家演示中学习奖励函数

IRL Imitation Learning 奖励学习

⏱️ 2-3 周 ⚡ 高级

阶段 5

实践应用

强化学习在各领域的应用

包含 1 个知识点

强化学习应用

游戏 AI、机器人控制、推荐系统、自动驾驶等应用

应用游戏机器人实践

⏱️ 持续学习 ⚡ 高级

📚 配套学习资源

精选课程、文章、工具等资源，帮助你在每个阶段深入学习

共 7 个资源

🔗 打开

📖

Reinforcement Learning: An Introduction (Sutton & Barto)

书籍 ✓ 免费

强化学习的圣经级教材，由 RL 领域奠基人编写

David Silver's RL Course - Lecture 1

视频教程 ✓ 免费

DeepMind 研究科学家的经典 RL 课程

• ⭐ 入门 • ⏱️ 10 lectures

OpenAI Spinning Up

OpenAI 提供的深度强化学习教程和代码实现

Playing Atari with Deep RL (DeepMind 2013)

论文 ✓ 免费

DQN 原始论文，深度强化学习的开创性工作

PPO Paper (OpenAI 2017)

论文 ✓ 免费

Proximal Policy Optimization 算法论文

AlphaGo Paper

AlphaGo 击败李世石的 Nature 论文

深度强化学习（中文课程）

李宏毅老师的深度强化学习中文课程