生成式 AI (Generative AI)
掌握当前最热门的 AI 技术:从 Transformer 架构到大语言模型(LLM)、图像生成模型,学习 Prompt Engineering、RAG、Fine-tuning 等实战技能。
结构化学习
共包含 7 个阶段、22 个知识点,循序渐进掌握核心技能。
学习建议
推荐学习时长约为 6-12 个月,可根据自身节奏灵活调整。
关键能力
生成式AI · LLM · GPT
循序渐进的学习计划
按阶段结构化的学习路径,帮助你系统掌握核心技能。每个阶段都有明确的学习目标和配套资源。
阶段 1
入门基础
生成式AI基本概念和实践入门,适合零基础学习者
生成式AI入门基础
入门理解生成式AI的基本概念、应用场景和发展历史,了解不同类型的生成模型及其特点
实践基础与工具
入门学习生成式AI的实际应用,掌握主流工具和平台的使用,通过项目实践理解核心概念
阶段 2
基础架构
Transformer 和预训练技术基础
注意力机制 (Attention)
中级理解 Seq2Seq 模型和 Attention 机制的核心思想
Transformer 架构
中级掌握 Self-Attention、Multi-Head Attention、Position Encoding
预训练与微调
中级理解预训练-微调范式,Transfer Learning 在 NLP 的应用
BERT 及变体
中级双向 Encoder 模型,掌握 Masked Language Modeling
阶段 3
大语言模型
GPT、Claude、Gemini 等语言模型
GPT 系列模型
高级自回归 Decoder 模型:GPT、GPT-2、GPT-3、GPT-4
大语言模型基础
高级理解 LLM 的能力涌现、规模法则、上下文学习
Claude、Gemini 等模型
高级了解 Anthropic Claude、Google Gemini、Meta Llama 等模型
阶段 4
实践技能
Prompt Engineering、RAG、微调等实战技能
Prompt Engineering
入门掌握提示词设计、Chain-of-Thought、Few-Shot Learning
RAG (检索增强生成)
中级结合向量数据库和 LLM,构建知识问答系统
LLM 微调技术
高级掌握 LoRA、QLoRA、PEFT 等高效微调方法
LangChain & Agent
中级使用 LangChain 构建 LLM 应用和 AI Agent
阶段 5
图像生成
GAN、VAE、Diffusion、Stable Diffusion 等
生成对抗网络 (GAN)
高级理解 GAN 的原理:Generator、Discriminator、对抗训练
变分自编码器 (VAE)
高级理解 VAE 的概率生成模型框架
扩散模型 (Diffusion)
高级掌握 DDPM、DDIM 等扩散模型原理
Stable Diffusion
中级使用 Stable Diffusion 生成图像,理解 Latent Diffusion
DALL-E & Midjourney
中级了解 OpenAI DALL-E、Midjourney 等商业图像生成模型
阶段 6
多模态模型
视觉语言模型、视频生成等
CLIP 多模态模型
高级理解视觉-语言对比学习,CLIP 的原理和应用
多模态大模型
高级GPT-4V、Gemini、Claude 3 等视觉语言模型
视频生成模型
高级Sora、Runway、Pika 等视频生成技术
阶段 7
实战项目
构建实际的 AI 应用
LLM 应用开发
中级构建聊天机器人、写作助手、代码助手等实际应用
📚 配套学习资源
精选课程、文章、工具等资源,帮助你在每个阶段深入学习
Generative AI for Beginners (Microsoft)
🔗 生成式AI入门基础
微软官方出品的生成式AI入门课程,包含12个精心设计的课程,涵盖从基础概念到实际应用的完整学习路径,配有丰富的代码示例和实践项目
Attention Is All You Need (2017)
🔗 注意力机制 (Attention)
Transformer架构的原始论文,深度学习的里程碑之作
The Illustrated Transformer
🔗 注意力机制 (Attention)
图解Transformer架构,最通俗易懂的Transformer教程
Attention Mechanism Explained
🔗 注意力机制 (Attention)
深入浅出地解释注意力机制的工作原理
Transformer from Scratch
🔗 Transformer 架构
从零开始实现Transformer模型的详细教程
Transfer Learning in NLP
🔗 预训练与微调
NLP中的迁移学习全面指南,涵盖预训练和微调的核心概念
Pre-training and Fine-tuning Explained
🔗 预训练与微调
Hugging Face官方文档,详细解释预训练和微调的最佳实践
BERT Paper (Google 2018)
🔗 BERT 及变体
BERT模型的原始论文,开创了双向预训练语言模型的新时代
RoBERTa, ALBERT, ELECTRA
🔗 BERT 及变体
BERT的各种变体模型介绍,包括RoBERTa、ALBERT、ELECTRA等改进版本
BERT Fine-tuning Tutorial
🔗 BERT 及变体
BERT模型微调的实战教程,包含完整的代码示例和数据集处理
GPT-3 Paper (OpenAI 2020)
🔗 GPT 系列模型
GPT-3模型的原始论文,展示了大规模语言模型的few-shot学习能力
GPT-4 Technical Report
🔗 GPT 系列模型
GPT-4的官方技术报告,详细介绍了模型架构、训练方法和性能表现
Emergent Abilities of LLMs
🔗 大语言模型基础
研究大语言模型涌现能力的经典论文,解释了规模效应带来的能力跃升
Scaling Laws for Neural Language Models
🔗 大语言模型基础
神经网络语言模型规模法则的开创性研究,为模型规模扩展提供理论指导
In-Context Learning Explained
🔗 大语言模型基础
深入解释上下文学习机制,帮助理解现代大模型的核心工作原理
Claude Technical Reports
🔗 Claude、Gemini 等模型
Anthropic官方技术报告,包含Claude系列模型的最新进展
Gemini Technical Report
🔗 Claude、Gemini 等模型
Google Gemini模型的官方技术报告和文档
Llama 2 & 3 Papers
🔗 Claude、Gemini 等模型
Meta Llama系列模型的官方文档和相关论文
Prompt Engineering Guide
🔗 Prompt Engineering
最全面的Prompt Engineering教程,涵盖从基础到高级的所有技巧
Chain-of-Thought Prompting
🔗 Prompt Engineering
Chain-of-Thought推理的原始论文,展示了如何让模型进行逐步推理
OpenAI Prompt Examples
🔗 Prompt Engineering
OpenAI官方的Prompt Engineering最佳实践指南,包含大量实例
Anthropic Prompt Library
🔗 Prompt Engineering
Anthropic官方的Claude提示词库,包含各类应用的实用模板
RAG Paper (Meta)
🔗 RAG (检索增强生成)
RAG(检索增强生成)的原始论文,提出了结合检索和生成的新范式
LangChain RAG Tutorial
🔗 RAG (检索增强生成)
使用LangChain构建RAG聊天机器人的实战教程
Building RAG Applications
🔗 RAG (检索增强生成)
DeepLearning.AI的RAG应用构建课程,理论与实践并重
LoRA Paper (Microsoft)
🔗 LLM 微调技术
LoRA(Low-Rank Adaptation)的原始论文,高效微调的开创性工作
QLoRA: Efficient Finetuning
🔗 LLM 微调技术
QLoRA论文,实现了在单个GPU上微调65B参数模型的技术突破
Hugging Face PEFT Library
🔗 LLM 微调技术
Hugging Face PEFT库官方文档,支持LoRA、QLoRA等高效微调方法
LangChain Documentation
🔗 LangChain & Agent
LangChain官方文档,构建LLM应用的完整框架指南
Building LLM Agents
🔗 LangChain & Agent
使用LangChain构建LLM Agents的课程,包含ReAct、工具使用等概念
LlamaIndex Guide
🔗 LangChain & Agent
LlamaIndex官方文档,专注于数据增强的LLM应用开发框架
AI Agents for Beginners (Microsoft)
🔗 LangChain & Agent
微软官方 AI Agents 入门课程,系统化学习如何构建智能 Agent,包含实践项目和代码示例
GAN Paper (Goodfellow 2014)
🔗 生成对抗网络 (GAN)
生成对抗网络的原始论文,深度生成学习的里程碑
DCGAN, StyleGAN, StyleGAN2
🔗 生成对抗网络 (GAN)
DCGAN和StyleGAN系列模型的实现教程和技巧
GAN Tutorial
🔗 生成对抗网络 (GAN)
Google出品的GAN教程,包含理论基础和实践代码
VAE Paper (Kingma & Welling)
🔗 变分自编码器 (VAE)
变分自编码器的原始论文,概率生成模型的基础
Variational Autoencoders Explained
🔗 变分自编码器 (VAE)
VAE的详细解释教程,包含数学推导和直观理解
VQ-VAE
🔗 变分自编码器 (VAE)
VQ-VAE论文,向量量化变分自编码器
Denoising Diffusion Probabilistic Models
🔗 扩散模型 (Diffusion)
DDPM扩散模型的原始论文,现代图像生成的基础
DDIM Paper
🔗 扩散模型 (Diffusion)
DDIM论文,实现了扩散模型的确定性采样加速
Diffusion Models Explained
🔗 扩散模型 (Diffusion)
扩散模型的全面解释,包含数学原理和实现细节
Stable Diffusion Paper
🔗 Stable Diffusion
Stable Diffusion的原始论文,潜在扩散模型的突破
SD WebUI Tutorial
🔗 Stable Diffusion
AUTOMATIC1111的Stable Diffusion WebUI使用教程
ComfyUI Guide
🔗 Stable Diffusion
ComfyUI节点式界面指南,高级图像生成工具
DALL-E 2 Paper (OpenAI)
🔗 DALL-E & Midjourney
DALL-E 2模型的原始论文,CLIP引导的图像生成
DALL-E 3 Technical Report
🔗 DALL-E & Midjourney
DALL-E 3的技术报告,改进的文本到图像生成
Midjourney Prompting Guide
🔗 DALL-E & Midjourney
Midjourney官方文档和提示词指南
CLIP Paper (OpenAI)
🔗 CLIP 多模态模型
Learning Transferable Visual Models From Natural Language Supervision
CLIP Applications
🔗 CLIP 多模态模型
CLIP模型的应用示例和代码实现
GPT-4V System Card
🔗 多模态大模型
GPT-4V的系统安全报告和技术说明
Gemini Multimodal Capabilities
🔗 多模态大模型
Gemini多模态能力的详细介绍
Claude 3 Vision Features
🔗 多模态大模型
Claude 3 Vision模型的功能介绍和使用指南
Sora Technical Report (OpenAI)
🔗 视频生成模型
Sora视频生成模型的技术报告
Video Diffusion Models
🔗 视频生成模型
视频扩散模型的综述论文
Runway Gen-2
🔗 视频生成模型
Runway Gen-2视频生成平台介绍
Building LLM Applications
🔗 LLM 应用开发
DeepLearning.AI的LLM应用构建课程
ChatGPT API Guide
🔗 LLM 应用开发
OpenAI ChatGPT API的官方使用指南
Claude API Guide
🔗 LLM 应用开发
Anthropic Claude API的官方使用指南
LLM Application Examples
🔗 LLM 应用开发
OpenAI官方的LLM应用示例代码库