📌 路线图 ⏱️ 6-9 个月 🎯 入门到高级

强化学习 (Reinforcement Learning)

从基础概念到深度强化学习,掌握智能体与环境交互学习的核心技术,应用于游戏 AI、机器人控制等领域。

#强化学习 #RL #深度强化学习 #游戏 AI #机器人
🗺️

结构化学习

共包含 5 个阶段、20 个知识点,循序渐进掌握核心技能。

⏱️

学习建议

推荐学习时长约为 6-9 个月,可根据自身节奏灵活调整。

🎯

关键能力

强化学习 · RL · 深度强化学习

循序渐进的学习计划

按阶段结构化的学习路径,帮助你系统掌握核心技能。每个阶段都有明确的学习目标和配套资源。

难度筛选:
5
学习阶段
20
知识点
6-9 个月
学习建议

阶段 1

基础概念

强化学习的核心概念和数学基础

📝 4 个知识点
🌱

强化学习基础

入门

理解强化学习的核心概念:智能体、环境、状态、动作、奖励

⏱️ 1-2 周
🚀

马尔可夫决策过程 (MDP)

中级

掌握 MDP 的数学框架:状态转移、奖励函数、折扣因子

⏱️ 1-2 周
🚀

Bellman 方程

中级

理解值函数的递归关系和 Bellman 最优性原理

⏱️ 1-2 周
🚀

动态规划

中级

学习 Policy Iteration 和 Value Iteration 算法

⏱️ 2 周

阶段 2

经典算法

表格型强化学习算法

📝 4 个知识点
🚀

蒙特卡洛方法

中级

基于采样的强化学习方法,不需要环境模型

⏱️ 2 周
🚀

时序差分学习 (TD)

中级

结合 MC 和 DP 的优势,在线学习价值函数

⏱️ 2-3 周
🚀

Q-Learning

中级

经典的 off-policy TD 算法,学习最优 Q 函数

⏱️ 2-3 周
🚀

SARSA

中级

On-policy TD 算法,学习当前策略的 Q 函数

⏱️ 1-2 周

阶段 3

深度强化学习

结合深度学习的现代强化学习算法

📝 7 个知识点

函数逼近

高级

使用神经网络等函数逼近器处理连续状态空间

⏱️ 2-3 周

DQN (Deep Q-Network)

高级

使用深度学习的 Q-Learning,Experience Replay 和 Target Network

⏱️ 3-4 周

策略梯度方法

高级

直接优化策略参数,REINFORCE 算法

⏱️ 3-4 周

Actor-Critic 方法

高级

结合价值函数和策略梯度,A3C、A2C 算法

⏱️ 3-4 周

PPO (Proximal Policy Optimization)

高级

OpenAI 提出的高效策略优化算法,工业界广泛使用

⏱️ 3-4 周

DDPG (连续控制)

高级

处理连续动作空间的 Actor-Critic 算法

⏱️ 2-3 周

SAC (Soft Actor-Critic)

高级

基于最大熵的 off-policy 算法,样本效率高

⏱️ 2-3 周

阶段 4

高级话题

前沿研究方向和特殊应用场景

📝 4 个知识点

基于模型的强化学习

高级

学习环境模型进行规划,提高样本效率

⏱️ 3-4 周

多智能体强化学习

高级

多个智能体协作或竞争的场景

⏱️ 3-4 周

离线强化学习

高级

从固定数据集学习,无需与环境交互

⏱️ 2-3 周

逆强化学习 (IRL)

高级

从专家演示中学习奖励函数

⏱️ 2-3 周

阶段 5

实践应用

强化学习在各领域的应用

📝 1 个知识点

强化学习应用

高级

游戏 AI、机器人控制、推荐系统、自动驾驶等应用

⏱️ 持续学习