强化学习 (Reinforcement Learning)
从基础概念到深度强化学习,掌握智能体与环境交互学习的核心技术,应用于游戏 AI、机器人控制等领域。
结构化学习
共包含 5 个阶段、20 个知识点,循序渐进掌握核心技能。
预计时长
推荐学习时长约为 6-9 个月,可根据自身节奏灵活调整。
关键能力
强化学习 · RL · 深度强化学习
交互式路线图
拖拽查看节点关系,点击节点了解详细说明。 登录后可追踪学习进度与收藏路线图。
学习阶段拆解
5 个阶段 · 20 个节点阶段 1
基础概念
强化学习的核心概念和数学基础
强化学习基础
理解强化学习的核心概念:智能体、环境、状态、动作、奖励
马尔可夫决策过程 (MDP)
掌握 MDP 的数学框架:状态转移、奖励函数、折扣因子
Bellman 方程
理解值函数的递归关系和 Bellman 最优性原理
动态规划
学习 Policy Iteration 和 Value Iteration 算法
阶段 2
经典算法
表格型强化学习算法
蒙特卡洛方法
基于采样的强化学习方法,不需要环境模型
时序差分学习 (TD)
结合 MC 和 DP 的优势,在线学习价值函数
Q-Learning
经典的 off-policy TD 算法,学习最优 Q 函数
SARSA
On-policy TD 算法,学习当前策略的 Q 函数
阶段 3
深度强化学习
结合深度学习的现代强化学习算法
函数逼近
使用神经网络等函数逼近器处理连续状态空间
DQN (Deep Q-Network)
使用深度学习的 Q-Learning,Experience Replay 和 Target Network
策略梯度方法
直接优化策略参数,REINFORCE 算法
Actor-Critic 方法
结合价值函数和策略梯度,A3C、A2C 算法
PPO (Proximal Policy Optimization)
OpenAI 提出的高效策略优化算法,工业界广泛使用
DDPG (连续控制)
处理连续动作空间的 Actor-Critic 算法
SAC (Soft Actor-Critic)
基于最大熵的 off-policy 算法,样本效率高
阶段 4
高级话题
前沿研究方向和特殊应用场景
基于模型的强化学习
学习环境模型进行规划,提高样本效率
多智能体强化学习
多个智能体协作或竞争的场景
离线强化学习
从固定数据集学习,无需与环境交互
逆强化学习 (IRL)
从专家演示中学习奖励函数
阶段 5
实践应用
强化学习在各领域的应用
强化学习应用
游戏 AI、机器人控制、推荐系统、自动驾驶等应用
📚 配套学习资源
精选课程、文章、工具等资源,帮助你在每个阶段深入学习
Reinforcement Learning: An Introduction (Sutton & Barto)
强化学习的圣经级教材,由 RL 领域奠基人编写
David Silver's RL Course - Lecture 1
DeepMind 研究科学家的经典 RL 课程
OpenAI Spinning Up
OpenAI 提供的深度强化学习教程和代码实现
Playing Atari with Deep RL (DeepMind 2013)
DQN 原始论文,深度强化学习的开创性工作
PPO Paper (OpenAI 2017)
Proximal Policy Optimization 算法论文
AlphaGo Paper
AlphaGo 击败李世石的 Nature 论文
深度强化学习(中文课程)
李宏毅老师的深度强化学习中文课程