强化学习 (Reinforcement Learning)
从基础概念到深度强化学习,掌握智能体与环境交互学习的核心技术,应用于游戏 AI、机器人控制等领域。
结构化学习
共包含 5 个阶段、20 个知识点,循序渐进掌握核心技能。
学习建议
推荐学习时长约为 6-9 个月,可根据自身节奏灵活调整。
关键能力
强化学习 · RL · 深度强化学习
循序渐进的学习计划
按阶段结构化的学习路径,帮助你系统掌握核心技能。每个阶段都有明确的学习目标和配套资源。
阶段 1
基础概念
强化学习的核心概念和数学基础
强化学习基础
入门理解强化学习的核心概念:智能体、环境、状态、动作、奖励
马尔可夫决策过程 (MDP)
中级掌握 MDP 的数学框架:状态转移、奖励函数、折扣因子
Bellman 方程
中级理解值函数的递归关系和 Bellman 最优性原理
动态规划
中级学习 Policy Iteration 和 Value Iteration 算法
阶段 2
经典算法
表格型强化学习算法
蒙特卡洛方法
中级基于采样的强化学习方法,不需要环境模型
时序差分学习 (TD)
中级结合 MC 和 DP 的优势,在线学习价值函数
Q-Learning
中级经典的 off-policy TD 算法,学习最优 Q 函数
SARSA
中级On-policy TD 算法,学习当前策略的 Q 函数
阶段 3
深度强化学习
结合深度学习的现代强化学习算法
函数逼近
高级使用神经网络等函数逼近器处理连续状态空间
DQN (Deep Q-Network)
高级使用深度学习的 Q-Learning,Experience Replay 和 Target Network
策略梯度方法
高级直接优化策略参数,REINFORCE 算法
Actor-Critic 方法
高级结合价值函数和策略梯度,A3C、A2C 算法
PPO (Proximal Policy Optimization)
高级OpenAI 提出的高效策略优化算法,工业界广泛使用
DDPG (连续控制)
高级处理连续动作空间的 Actor-Critic 算法
SAC (Soft Actor-Critic)
高级基于最大熵的 off-policy 算法,样本效率高
阶段 4
高级话题
前沿研究方向和特殊应用场景
基于模型的强化学习
高级学习环境模型进行规划,提高样本效率
多智能体强化学习
高级多个智能体协作或竞争的场景
离线强化学习
高级从固定数据集学习,无需与环境交互
逆强化学习 (IRL)
高级从专家演示中学习奖励函数
阶段 5
实践应用
强化学习在各领域的应用
强化学习应用
高级游戏 AI、机器人控制、推荐系统、自动驾驶等应用
📚 配套学习资源
精选课程、文章、工具等资源,帮助你在每个阶段深入学习
Reinforcement Learning: An Introduction (Sutton & Barto)
强化学习的圣经级教材,由 RL 领域奠基人编写
David Silver's RL Course - Lecture 1
DeepMind 研究科学家的经典 RL 课程
OpenAI Spinning Up
OpenAI 提供的深度强化学习教程和代码实现
Playing Atari with Deep RL (DeepMind 2013)
DQN 原始论文,深度强化学习的开创性工作
PPO Paper (OpenAI 2017)
Proximal Policy Optimization 算法论文
AlphaGo Paper
AlphaGo 击败李世石的 Nature 论文
深度强化学习(中文课程)
李宏毅老师的深度强化学习中文课程