📌 路线图 ⏱️ 6-9 个月 🎯 入门到高级

强化学习 (Reinforcement Learning)

从基础概念到深度强化学习,掌握智能体与环境交互学习的核心技术,应用于游戏 AI、机器人控制等领域。

#强化学习 #RL #深度强化学习 #游戏 AI #机器人
🗺️

结构化学习

共包含 5 个阶段、20 个知识点,循序渐进掌握核心技能。

⏱️

预计时长

推荐学习时长约为 6-9 个月,可根据自身节奏灵活调整。

🎯

关键能力

强化学习 · RL · 深度强化学习

交互式路线图

拖拽查看节点关系,点击节点了解详细说明。 登录后可追踪学习进度与收藏路线图。

🔐 登录以保存进度

学习阶段拆解

5 个阶段 · 20 个节点

阶段 1

基础概念

强化学习的核心概念和数学基础

包含 4 个知识点

强化学习基础

理解强化学习的核心概念:智能体、环境、状态、动作、奖励

基础 概念
⏱️ 1-2 周 🌱 入门

马尔可夫决策过程 (MDP)

掌握 MDP 的数学框架:状态转移、奖励函数、折扣因子

MDP 数学 理论
⏱️ 1-2 周 🚀 中级

Bellman 方程

理解值函数的递归关系和 Bellman 最优性原理

Bellman 价值函数 理论
⏱️ 1-2 周 🚀 中级

动态规划

学习 Policy Iteration 和 Value Iteration 算法

DP 算法 规划
⏱️ 2 周 🚀 中级

阶段 2

经典算法

表格型强化学习算法

包含 4 个知识点

蒙特卡洛方法

基于采样的强化学习方法,不需要环境模型

Monte Carlo 无模型 采样
⏱️ 2 周 🚀 中级

时序差分学习 (TD)

结合 MC 和 DP 的优势,在线学习价值函数

TD Learning 无模型 在线学习
⏱️ 2-3 周 🚀 中级

Q-Learning

经典的 off-policy TD 算法,学习最优 Q 函数

Q-Learning Off-Policy 无模型
⏱️ 2-3 周 🚀 中级

SARSA

On-policy TD 算法,学习当前策略的 Q 函数

SARSA On-Policy TD
⏱️ 1-2 周 🚀 中级

阶段 3

深度强化学习

结合深度学习的现代强化学习算法

包含 7 个知识点

函数逼近

使用神经网络等函数逼近器处理连续状态空间

函数逼近 神经网络 连续空间
⏱️ 2-3 周 ⚡ 高级

DQN (Deep Q-Network)

使用深度学习的 Q-Learning,Experience Replay 和 Target Network

DQN Deep RL DeepMind
⏱️ 3-4 周 ⚡ 高级

策略梯度方法

直接优化策略参数,REINFORCE 算法

Policy Gradient REINFORCE Actor
⏱️ 3-4 周 ⚡ 高级

Actor-Critic 方法

结合价值函数和策略梯度,A3C、A2C 算法

Actor-Critic A3C A2C
⏱️ 3-4 周 ⚡ 高级

PPO (Proximal Policy Optimization)

OpenAI 提出的高效策略优化算法,工业界广泛使用

PPO OpenAI SOTA
⏱️ 3-4 周 ⚡ 高级

DDPG (连续控制)

处理连续动作空间的 Actor-Critic 算法

DDPG 连续控制 机器人
⏱️ 2-3 周 ⚡ 高级

SAC (Soft Actor-Critic)

基于最大熵的 off-policy 算法,样本效率高

SAC 最大熵 Off-Policy
⏱️ 2-3 周 ⚡ 高级

阶段 4

高级话题

前沿研究方向和特殊应用场景

包含 4 个知识点

基于模型的强化学习

学习环境模型进行规划,提高样本效率

Model-Based Planning 效率
⏱️ 3-4 周 ⚡ 高级

多智能体强化学习

多个智能体协作或竞争的场景

Multi-Agent 协作 博弈
⏱️ 3-4 周 ⚡ 高级

离线强化学习

从固定数据集学习,无需与环境交互

Offline RL Batch RL 数据驱动
⏱️ 2-3 周 ⚡ 高级

逆强化学习 (IRL)

从专家演示中学习奖励函数

IRL Imitation Learning 奖励学习
⏱️ 2-3 周 ⚡ 高级

阶段 5

实践应用

强化学习在各领域的应用

包含 1 个知识点

强化学习应用

游戏 AI、机器人控制、推荐系统、自动驾驶等应用

应用 游戏 机器人 实践
⏱️ 持续学习 ⚡ 高级