① 概览:从 ChatGPT 谈起
2022 年 11 月 30 日,OpenAI 发布 ChatGPT。短短 2 个月用户突破 1 亿,成为史上增长最快的消费级应用。 一台无生命的机器,竟然具备了语言能力——这一能力背后到底隐藏了怎样的原理? 本课程围绕这条主线,揭开生成式 AI与大模型的全部技术地基。
1.1 ChatGPT 引发的现象级事件
OpenAI 在 2022 年发布的人工智能模型,给人机交互(人工智能 + 自然语言处理)带来了革命性转变。它的几个突出特点:
- 支持多语种,泛及各类问题的 Q&A
- 能写诗、写代码、写小说、做数学、做总结
- 能模拟角色、能给出建议、能“听懂”复杂指令
1.2 ChatGPT 带来的本质思考
语言,曾被认为是人类这种高等生物的专属品。如今,一台无生命的机器竟然具备了语言能力—— 机器这一能力的背后隐藏了怎样的原理?这正是本课程要解答的核心问题。
1.3 大模型的时代:百花齐放
从 2018 年的 GPT-1 至今,大型语言模型(LLM)已经形成了一个庞大的家族:
📚 综述:Zhao et al., A Survey of Large Language Models, arXiv:2303.18223(持续更新版)。截至 2026 年 5 月,专精分化是市场主旋律 — 推理模型、多模态、智能体各擅其长。
1.4 4 课时学习路线
| 课时 | 主题 | 核心内容 |
|---|---|---|
| 课时 1 | 概念 + 早期算法 | 生成式 vs 判别式 · Token 化 · 自编码器 AE · 变分自编码器 VAE |
| 课时 2 | 主流生成算法 | 生成对抗网络 GAN · 扩散模型 Diffusion · Transformer 与自注意力 |
| 课时 3 | 大模型的训练与使用 | 三阶段训练 (SSL→SFT→RLHF) · 推理模型 / RLVR · Scaling Law · GPU · 提示词工程 |
| 课时 4 | 反思与展望 | 幻觉 / 隐私 / 对齐 / AI 创作 · 课后小测 |
1.5 开始前 · 一个直觉问答
📌 学习提示:每个章节支持逐步展开——底部的控制条点“展开下一节”即可一段段释出;也可一次全部展开自学。
② 生成式 AI 概念
什么是“生成式 AI”?它与传统机器学习的“判别”有什么本质区别?为什么文字、图像、音频、视频都能用同一套思路处理? 本节给出概念地基。
2.1 什么是生成式 AI
生成式 AI(Generative AI)是一种能从数据中学习模式、并生成与训练数据具有相似分布或特征的新数据的机器学习技术。
关键词解读:
- 学习模式——不是死记硬背,而是抓住数据背后的规律
- 新数据——生成的内容是模型自创,而非检索来的原文
- 相似分布——新数据“看起来像”训练数据,但又不一样
它可以生成:
文章、对话、代码、诗歌
插画、设计图、艺术创作
音乐、语音、声音克隆
短片、动画、虚拟主播
2.2 一切都由“基本单位”组成
生成式 AI 的本质:把数字(基本单位)按照一定规律以正确的顺序组合起来。
2.2.1 文字 — 由 Token 组成
大模型并不直接处理“汉字”或“英文单词”,而是先把它们切成 Token。一个 Token 可能是一个字、一个常用词、或一段词缀, 在模型词表中对应一个整数 ID。
官方分词器演示:platform.openai.com/tokenizer
输入一段话,看模型如何把它切成 Token。同一句话,中文用的 Token 比英文多——这就是为什么中文调用大模型常常更贵。
2.2.2 图像 — 由像素组成
每张图都是一个 $H\times W\times C$ 的矩阵。每个像素位置上有 1 个(灰度)或 3 个(RGB)整数。 回到刚才那句话——生成式 AI 的本质就是"把数字按正确的顺序拼起来"。
下方网格是 16×16 的一个"⊙"图案。拖动阈值——大于它的像素显蓝色(前景),小于显灰色(背景)。 无论你看到的是字、是猫、是建筑——计算机眼里只是这些数字。
这张 16×16 灰度图存储仅需 256 字节——256 个整数。
2.2.3 声音 — 由采样点组成
声音是连续波形,要数字化必须采样。采样率(sampling rate)= 每秒采集多少个点。
- CD 音质:44.1 kHz = 每秒 44 100 个数字
- 电话语音:8 kHz = 每秒 8 000 个数字
- 专业录音:96 kHz 甚至 192 kHz
蓝色曲线是真实模拟波形(连续),红点是采样点,橙色虚线是用采样点重建出来的波形。 采样率越低,重建越失真("奈奎斯特定理"指出:采样率必须 ≥ 信号最高频率的 2 倍)。
2.3 生成式 vs 判别式
这是两种根本不同的建模思路。
寻找一条决策边界,把样本分到对应类别。
例:垃圾邮件分类、CT 图像诊断、隧道病害类型识别
学习每个类别的内部结构,包含更多信息,可以用来生成新样本。
例:写一首诗、画一张图、合成一段语音
同一份“猫/狗”二维特征点数据。切换视角:判别只画一条线;生成画两团云。
⚡ 关键洞察:生成模型携带的信息比判别更多——它知道每一类“长什么样”,可以反向“造”一个出来;判别只知道“两类的差在哪条线”。
2.4 四类典型生成算法 — 本课的主线
变分自编码器
概率化潜空间
生成器 vs 判别器
对抗博弈
扩散模型
加噪 → 去噪
自注意力
序列建模之王
③ 自编码器(Autoencoder, AE)
自编码器是 1980 年代就已提出的“复古”网络,但它的思想奠定了几乎所有现代生成模型的基础。 它教会我们一件事:高维数据可以被压缩成低维"本质表示",再从中重建出来。
3.1 结构特点:胖—瘦—胖
自编码器是一个对称的神经网络,由三部分组成:
- 编码器(Encoder):把输入 $x$ 压缩成低维向量 $z$(称为隐变量 / 潜空间表示)
- 瓶颈(Bottleneck):网络最窄的一层,强迫信息高度浓缩
- 解码器(Decoder):从 $z$ 重建出 $\hat x$,期望尽可能接近 $x$
输入 $x$(高维)→ 编码 → 瓶颈 $z$(低维) → 解码 → 重建 $\hat x$(高维)
3.2 训练目标
训练数据不需要任何人工标签——输入自己就是标签。这是自监督学习最早的雏形之一。
“重建损失”约束模型:要想还原 $x$,瓶颈 $z$ 必须抓住 $x$ 中最关键的特征,丢弃冗余。
3.3 直观演示:瓶颈宽度的影响
原图是一个 16×16 的“数字 5”。拖动滑块改变瓶颈维度 $|z|$。维度越小,丢失信息越多,重建越糊。
原图 $x$
瓶颈 z(部分值)
重建 $\hat x$
📊 重建 MSE:— · 压缩率:—×
3.4 思考:瓶颈的物理意义
当输入数据经过层层处理,通过相对狭窄的瓶颈,又能逆向扩增输出与输入一致时—— 瓶颈区的 $z$ 相比原始输入,具有怎样的特点?
点击展开参考答案
$z$ 是输入数据的压缩表示——它保留了重建所必须的关键信息,丢弃了冗余。这意味着:
- Encoder 可作特征提取器——把高维原始数据转成低维稠密的特征向量
- Decoder 可作生成器——给它一个 $z$,就能“造”出对应的 $x$
这两个洞察分别奠定了“表示学习”和“生成模型”两大方向。
3.5 把 Decoder 单独拿出来 — 能生成吗?
如果我们随便给训练好的 Decoder 送一个 $z$ 向量,会得到什么?
普通 AE 的潜空间没有“光滑性”或“完整性”约束。它只保证“训练样本对应的 $z$ 解码出原图”, 但其它 $z$ 落点是什么意义、能不能解码出合理图像,完全没保证。
采样的 z(8 维)
Decoder 输出
观察规律:完全随机的 z → 多半是噪声 / 模糊。这就是为什么我们需要变分自编码器 VAE—— 它强制潜空间“规整”,让随便采一个 z 都能解码出像样的东西。
3.6 AE 的现实用途
用 z 替代原始数据存储,压缩率可达 100× 以上(如视频会议中的人脸压缩)。
正常数据重建好,异常数据重建差。隧道衬砌图像的异常区域可由 AE 重建误差自动定位。
Denoising AE:输入加噪图,目标输出干净图——网络学会“忽略噪声、抓住本质”。
④ 变分自编码器(VAE)
AE 已经能“重建”了,但还不能“生成”——因为潜空间太稀疏、太杂乱。 VAE 的关键改动只有一个:把 $z$ 从"一个点“变成”一个概率分布"。 就这一个改动,让潜空间变得平滑、可采样、可生成。
4.1 从 AE 到 VAE — 关键改动
每个 $x$ 编码到一个固定的点。训练样本之间的"空地"没有约束——任意 $z$ 解码不一定有意义。
每个 $x$ 编码到一个正态分布。整个潜空间被"填满"——任意 $z$ 都能解码出合理图像。
4.2 直观演示:两种潜空间的差异
下方 2 维潜空间里散布着 5 个训练样本(数字 0、1、2、3、4)。 点击任意位置看 Decoder 输出。切换 AE / VAE 模式对比:
2D 潜空间(点击采样)
点击潜空间
📌 观察:VAE 模式下点击空白处仍能得到合理图像,不同数字之间平滑过渡; AE 模式下点击远离训练点的位置 → 输出多为噪声。
4.3 VAE 的训练目标
VAE 在 AE 的"重建损失"之外,加了一个 KL 散度约束:
“送回去要像原图”——和 AE 完全相同,保证学到有意义的信息。
"潜在分布 $q(z\mid x)$ 要靠近标准正态"——让潜空间"规整",整片空间都有意义。
$\beta$ 调节两者的权衡:$\beta$ 大 → 潜空间更规整、但重建变模糊;$\beta$ 小 → 重建清晰、但潜空间稀疏。这就是 $\beta$-VAE 的来源。
4.4 重参数化技巧
问题:要训练 VAE,必须能让梯度从 $z$ 流回 $\mu,\sigma$。但"从 $\mathcal{N}(\mu,\sigma^2)$ 采样"这个操作不可微——梯度无法穿过随机采样这一步。
解决:把随机性外部化——
$\mu,\sigma$ 是网络可微输出,$\epsilon$ 是外部噪声常量。梯度顺利穿过 $\mu,\sigma$;$\epsilon$ 不需要梯度。
重参数化解决了“随机性破坏可微性”这个深度学习中常见的难题。除了 VAE, 它在 策略梯度(强化学习)、流模型(normalizing flow)、差分隐私 等领域都有重要应用。
4.5 VAE 潜变量的“可解释性”
当 VAE 训练得当,潜在维度可能对应人类可解释的语义维度——这是经典的"解耦表示"现象。
下方 SVG 模拟一个在人脸数据集上训练好的 VAE。4 个潜在维度被发现分别对应 微笑、男性化、肤色、胡须。 拖动滑块,看人脸如何连续变化——这种连续过渡是 VAE 平滑潜空间的标志。
4.6 VAE 的优缺点
| 优点 | 缺点 |
|---|---|
| ✓ 训练稳定,目标明确 ✓ 潜空间平滑可插值 ✓ 可生成无限多新样本 ✓ 有概率解释,便于扩展 |
✗ 生成图像偏模糊(重建 MSE 倾向“求平均”) ✗ 难以生成细节丰富的高分辨率图像 ✗ 模式覆盖不够全 |
⚡ 这些缺点正是 GAN 和扩散模型试图解决的——后两者都更擅长生成清晰、有细节的图像。
⑤ 生成对抗网络(GAN)
2014 年,Ian Goodfellow 在一次酒吧讨论后回到家,用一晚上完成了第一份代码——这就是 GAN。 它彻底改变了生成式 AI 的格局,启发了 StyleGAN、Pix2Pix、CycleGAN 等一系列里程碑工作。
5.1 直觉:警察与造假者的博弈
想象一个造假者(Generator, G)和一位警察(Discriminator, D):
- G 不断造假币,目标是让 D 分不清真假
- D 不断学习鉴别,目标是揪出所有假币
两个网络对抗博弈,最终 G 造出的假币与真币分布一致——D 再也分不出来。
5.2 GAN 网络结构
5.3 训练目标(数学)
GAN 是一个极小极大博弈:
$D(x) \to 1$(真图打 1)
$D(G(z)) \to 0$(假图打 0)
$D(G(z)) \to 1$(让假图也被 D 打 1)
从信息论看,G 在最小化"生成分布与真实分布之间的 JS 散度"。当二者完全一致时,D 只能猜(输出恒为 0.5)。
5.4 GAN 训练过程动画
蓝点是真实数据分布(两团),绿点是 G 当前生成的数据。背景的红蓝色显示 D 在每个位置打的“真假”概率。 点击“训练一步”看 G 如何逐步学到真实分布。
步数 = 0 · G loss = — · D loss = —
⚪ 真实数据 ⚫ 生成数据 — 训练目标:让绿点的分布完全盖住蓝点
5.5 GAN 训练的三大挑战
G 只生成几种样本骗过 D,分布覆盖不全。如:一个数字识别 GAN 可能只生成 1 和 7。
两个网络力量需平衡。D 太强 → G 学不动;D 太弱 → 学不到东西。Loss 经常震荡。
D 太强时 $\log(1-D(G(z)))$ 接近 0,G 没有可用梯度。常用 trick:把目标改为 $-\log D(G(z))$。
5.6 GAN 家族
| 名称 | 核心创新 | 典型应用 |
|---|---|---|
| DCGAN (2015) | 把全连接换成卷积 | 图像生成基础架构 |
| cGAN | 条件输入(类别 / 文本) | 按指令生成 |
| Pix2Pix / CycleGAN | 图像翻译 | 素描 → 实物 / 风格迁移 |
| WGAN / WGAN-GP | Wasserstein 距离替代 JS | 稳定训练 |
| StyleGAN (2018) | 风格 / 内容解耦 | 照片级人脸合成 |
| BigGAN (2019) | 大批量类条件生成 | ImageNet 类样本合成 |
⑥ 扩散模型(Diffusion Model)
扩散模型在 2020 年前后异军突起,迅速在细粒度图像生成中超越 GAN,成为 Stable Diffusion、DALL·E、Sora 的底层算法。 它的核心思想很反直觉:先把图弄坏,再学着把它“修”回来。
6.1 灵感:气体扩散
想象在一杯清水里滴一滴墨水。墨水会逐渐扩散,最终整杯水变成均匀的灰色。 如果我们能把这个过程反过来——从灰色水中“还原”出最初那滴墨水—— 我们就掌握了一种从噪声中生成有结构数据的能力。
6.2 前向过程(加噪)
给一张干净图像 $x_0$,分 $T$ 步逐渐加高斯噪声:
$\beta_t$ 是事先定好的“噪声调度”,$T$ 通常取 1000。当 $T$ 充分大时,$x_T$ 几乎是纯高斯噪声 $\mathcal{N}(0,I)$。 这一步无需训练——纯加噪。
从干净的“建筑”图像逐步加噪,到 t=100 时几乎全是噪声。
6.3 反向过程(去噪)
关键想法:训练一个网络 $\epsilon_\theta(x_t,t)$,从含噪 $x_t$ 中预测出加进去的噪声 $\epsilon$。 既然能预测出加了什么,自然可以减去它,得到 $x_{t-1}$。
训练目标极其简洁:
训练时随机采样 $t$ 与 $\epsilon$,让网络学习“在第 $t$ 步,加了什么样的噪声”。
点击“去噪一步”看每一步如何把噪声向清晰图像推一点。这是一个 Markov 链: $x_T \to x_{T-1} \to \cdots \to x_0$。
t = 100
6.4 扩散模型 vs GAN — 优劣对比
| 维度 | GAN | Diffusion |
|---|---|---|
| 样本质量 | 高(StyleGAN 已可达照片级) | 更高(细粒度图像 SOTA) |
| 分布覆盖 | 容易模式崩溃 | 覆盖全 |
| 训练稳定性 | 不稳定 | 稳定 |
| 推理速度 | 单步,快 | 需 $T$ 步迭代,慢 |
| 条件控制 | 较难 | 容易(classifier-free guidance) |
| 代表作 | StyleGAN、BigGAN | Stable Diffusion、DALL·E 2/3、Sora |
6.5 Diffusion Transformer (DiT)
2022 年提出的 DiT 把去噪网络的主干从 U-Net 换成 Transformer, 迅速成为 Sora 2 / Veo 3 / Stable Diffusion 3 等顶级模型的底层架构。 它能高效捕获数据中的长距离依赖,扩展性更好。
6.6 视频生成新时代(2025–2026)
2025 年 9 月 30 日,OpenAI 发布 Sora 2,标志着 AI 视频生成进入"有声 4 K"时代—— 模型一次性输出视频 + 同步对白 + 环境音 + 音效,全部由模型自己生成。
同期 Google 发布 Veo 3 / 3.1,主打 4 K + 影院级镜头语言;快手发布 Kling 3.0, 国内字节 Seedance 2.0、RunwayML Gen-4.5 等都达到了商用级别。
| 模型 | 厂商 | 核心特色 |
|---|---|---|
| Sora 2 | OpenAI | 有声合成、长 prompt 一致性(注:Sora 应用 2026-04 下线,API 9 月停止) |
| Veo 3.1 | 4 K、影院级镜头、同步音轨 | |
| Kling 3.0 | 快手 | 视觉保真度最高,中文 prompt 友好 |
| Seedance 2.0 | 字节跳动 | 多镜头叙事、专业级运动 |
| SVD 2 (Stable Video Diffusion) | Stability AI | 开源、可本地部署、可微调 |
⚡ 这意味着:影视、广告、游戏行业的工作流,正在经历结构性重塑。一个人 + 一个 GPU,就可以做过去需要几十人团队才能做的内容。
6.7 扩散模型的几个直觉问答
GAN 是两个网络博弈——目标不收敛,需要小心平衡。 扩散是一个网络做监督学习——目标就是预测一个已知噪声 $\epsilon$,标准的 MSE 损失。 监督学习永远比博弈学习稳定。
GAN 一次前向就得到结果。扩散要做 $T$ 次(典型 50—1000 次)前向才能从纯噪声“修”出清晰图像。 所以加速扩散采样(如 DDIM、LCM、Consistency Model)是当前研究热点。
⑦ Transformer 与自注意力
2017 年 6 月,Google 团队发表了一篇仅 9 页的论文 —— 《Attention Is All You Need》。 被引超过 14 万次,掀起了自然语言处理乃至整个 AI 领域的革命。 今天所有大模型(GPT、Claude、LLaMA)的底层都是它。
7.1 一篇引发革命的论文
Transformer 抛弃了 RNN/LSTM 那种“逐字处理”的循环结构,带来了两大改变:
- 纯并行化处理长序列 — 训练效率大幅提升
- 核心机制是 self-attention(自注意力) — 每个 Token 都能“看见”序列中所有其他 Token
- 架构通用 — 文本、图像(ViT)、音频(Whisper)、视频(Sora)都用同一套
7.2 Transformer 处理数据的流程
| 阶段 | 作用 |
|---|---|
| Tokenization | 把文字切成 Token,把图像切成 Patch(小块) |
| Embedding | 把每个 Token 映射成高维向量(“理解”它的含义) |
| Self-Attention | 每个 Token 看向其他 Token,决定“该听谁” |
| FFN | 对每个 Token 单独做一次非线性变换 |
7.3 自注意力的核心:Q、K、V
每个 Token 通过三个矩阵被投影成三个向量:
我想找什么样的信息?
我是什么样的内容(能被检索的关键)?
我的实际内容是什么?
注意力打分公式:
直观:用 $Q$ 与所有 $K$ 算相似度(点积),softmax 后得到注意力权重,加权求和所有 $V$。
7.4 可视化:Self-Attention 在做什么
这里的 it 是指 "animal" 还是 "street"?人类一眼就懂——它指 animal,因为 "tired" 更适合动物。 点击左侧任意 Token,看模型学到的注意力权重(线越粗 = 权重越大)。
📌 重点观察:点击 it,会发现它极强地指向 animal,而不是 street—— 这就是 Transformer 自己从大量文本中学到的“指代解析”,无需任何语法规则。
7.5 自回归生成 — 一个 Token 一个 Token 地吐
GPT 系列采用 Autoregressive Generation:
- 给定前 $n$ 个 Token,模型输出第 $n+1$ 个 Token 的概率分布
- 采样或贪心选一个 Token
- 把它追加到输入末尾,回到第 1 步
所以聊天界面里"字一个个蹦出来"的体验,正是这种逐 Token 生成的真实过程。
点击“生成下一个 Token”——每次只多吐一个词。注意:每个新 Token 都依赖之前所有 Token。
7.6 三类 Transformer 架构
双向理解,适合分类、抽取、问答等理解类任务。每个 Token 看全部上下文。
单向自回归生成,适合写作、对话、代码等生成类任务。每个 Token 只看左边的。
编码理解 + 解码生成,适合翻译、摘要等“输入→输出”任务。
"Attention is all you need" 这个标题已成为预言:今天几乎所有突破性 AI 模型—— GPT、Claude、Gemini、Stable Diffusion、Sora——核心都是某种形式的 Transformer + Attention。
⑧ 大模型的训练
什么叫“大”?参数规模通常以 B(Billion 十亿)为单位。 “大到一定程度,量变会引起质变” —— 这就是 Scaling Law。 而把一个 GPT 训练成 ChatGPT,需要经历严格的三个阶段。
8.1 什么叫“大”?
“大”的 AI 模型 — 模型参数量常以 B 为单位表示。例如 8B 就表示 80 亿参数。
| 模型 | 参数量 | 发布 | 典型用途 |
|---|---|---|---|
| GPT-2 | 1.5 B | 2019 | 开源生成 |
| GPT-3 | 175 B | 2020 | 首个大规模通用 LLM |
| LLaMA-2 | 7 B / 13 B / 70 B | 2023 | 开源 LLM 标杆 |
| GPT-4 | ~ 1.8 T(推测,MoE) | 2023 | 商用旗舰 |
| DeepSeek-V3 | 671 B(MoE,激活 37 B) | 2024 末 | 开源 MoE 旗舰 |
| DeepSeek-R1 | 671 B(MoE) | 2025-01 | 首个开源推理模型 · 媲美 o1 |
| Qwen3 | 0.6 / 1.7 / 4 / 8 / 14 / 32 / 235 B | 2025 | 混合推理(可切换思考模式) |
| GPT-5 / 5.5 | 未公开(多模态原生) | 2025–2026 | OpenAI 旗舰 |
| Claude Opus 4.7 | 未公开(1 M token 上下文) | 2026 | 编程 SOTA · SWE-bench Pro 64.3 % |
| Gemini 3.1 Pro | 未公开 | 2026 | 多模态 · GPQA Diamond 94.3 % |
| DeepSeek-V4 | 大幅扩容,超长上下文 | 2026-04 | Agentic 工作流优化 |
💾 内存粗算:8 B 参数 · fp16 存储(每参数 2 字节)→ 仅参数就占 16 GB 显存。
🚀 2026 趋势:参数不再是单一衡量标尺——架构(MoE)、上下文长度(1 M token)、推理能力(链式思考)成为新的差异化维度。
8.2 Scaling Law — 量变引起质变
OpenAI 与 DeepMind 通过大量实验发现:在训练方法得当的前提下,持续增加:
- 模型规模 $N$(参数量)
- 数据量 $D$(token 数)
- 计算资源 $C$(用 PF-days 衡量)
模型测试误差持续下降,且呈幂律:
PF-days = 一台机器以 1 PFLOPS(每秒 10¹⁵ 次浮点运算)跑一天 = 8.64 × 10¹⁹ FLOPs。
拖动滑块改变 模型规模 / 数据量 / 算力,看预测损失。注意 X 轴是对数。
三条曲线分别展示损失随规模、数据、算力的下降;红点是当前位置。
8.3 三阶段训练流程
训练一个 ChatGPT,需要经历三个连贯的阶段:
阶段一 · Self-Supervised Learning(自监督预训练)
目标:从海量无标注文本(互联网级别,数百 B token)中学习语言知识。
- Next Token Prediction(GPT 主流):给定前 N 个 Token,预测第 N+1 个
- Masked Language Modeling(BERT 主流):遮掉句中部分 Token,让模型猜
模型输出概率分布: 上课(0.32), 吃饭(0.21), 看电影(0.15), 健身房(0.08), ...
此阶段最贵——GPT-3 一次预训练成本约 460 万美元。模型只会“补全句子”,不会按指令做事。
阶段二 · Instruction Tuning(指令微调 / SFT)
目标:教模型听懂“指令”并按“答案格式”回答。
把"指令 + 答案"格式的数据喂给模型。数据量从数千到数十万条不等:
答案: "The weather is really nice today."
原来模型只会“补全句子”,现在它学会了"听人话、照指令做事“,像是”教 AI 写作业"。 GPT 能和我们对话、帮忙答题——靠的就是这一步。
阶段三 · RLHF(人类反馈强化学习)
目标:让模型回答更符合人类偏好(更安全、更礼貌、更准确、更有用)。
流程:
- 让模型对同一问题生成多个回答
- 人类标注员给这些回答排序(哪个更好)
- 训练一个 奖励模型(Reward Model),预测人类偏好分数
- 用强化学习(PPO 算法)让大模型最大化奖励分数
第一阶段预训练模型的可靠度至关重要——只有起点足够好,后续微调才有意义。 然而,在 ChatGPT 之前,从未有一个足够可靠的预训练大模型公开可用。这就是 OpenAI 的护城河。
点击各阶段,看模型从“补全句子的工具”到“对话助手”的演化。
8.4 推理模型:第二种训练范式(2024 年底以来的新形态)
从 2024 年底起,AI 出现了一类全新的模型形态——推理模型(Reasoning Model)。 OpenAI 的 o1 / o3、DeepSeek 的 R1、Anthropic 的 Claude Opus 4.7 Thinking、Google 的 Gemini Thinking……都属于这一类。
· 推理模型与普通 LLM 的核心区别
| 普通 LLM(如 GPT-4) | 推理模型(如 DeepSeek R1) | |
|---|---|---|
| 训练目标 | 预测下一个 Token | 给出正确的最终答案,过程可以试错 |
| 关键技术 | SFT + RLHF | RLVR(可验证奖励的强化学习) |
| 推理风格 | 直接给答案 | 长链式思考(数千 Token 内部 monologue) |
| 擅长场景 | 对话、写作、翻译 | 数学、代码、逻辑推理 |
| 速度成本 | 快 | 慢 5–50 ×,因为要"想很久" |
· RLVR — 没有 SFT 也能训练
更激进的是,DeepSeek R1-Zero 完全跳过了 SFT 阶段,直接对预训练模型做大规模强化学习—— 只要答案能被自动验证(数学题的对错、代码能否通过单元测试),就给奖励:
令人惊讶的是:模型自己学会了"反思 (reflect)"和"换一种方法 (let me try)"等高级推理行为—— 无需人类示范,纯粹从强化学习中涌现。这是 2025 年 AI 研究最重要的发现之一。
📚 DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL, arXiv:2501.12948 · Nature 2025
8.5 混合推理模型(Hybrid Reasoning)
2025 年下半年开始,Qwen3、Claude Opus 4.7、Gemini 3.1 等模型支持一键切换"思考模式"——
- 普通模式:快速回答 ☞ 适合闲聊、简单任务
- 思考模式:长链思考 ☞ 适合编程、数学、复杂分析
这意味着"一个模型两种性格"——用户根据问题难度自由选择,平衡速度与精度。
"简单问题用闪电模式,难题用慢思考"——已经成为程序员、研究者使用大模型的默认习惯。 Cursor / Claude Code / Cline 等 AI 编程工具都默认提供"思考"开关。
8.6 LLaMA 与"开源模型崛起"
2023 年 Meta 开源 LLaMA(Large Language Model Meta AI);2024 年 LLaMA-3;2025 年 LLaMA-4。 它催生了整个 LLaMA 家族:Alpaca、Vicuna、WizardLM、Code LLaMA……
"站在巨人肩膀上微调"成为 LLM 开发主流路径——学校实验室、初创公司都能玩 LLM 了。
2024–2025 的另一里程碑:中国开源模型崛起。 Qwen、DeepSeek、GLM、Baichuan 在国际排行榜上多次登顶;尤其 DeepSeek R1 的开源被国际媒体称作"中国版 ChatGPT 时刻"。
📚 综述:A Survey of Large Language Models, arXiv:2303.18223(社区持续更新)
8.7 大模型 vs 小模型 — 何时用哪个?
| 维度 | 大模型 | 小模型 |
|---|---|---|
| 结构 | 多个简单单元堆叠 → B 级参数 | 几层、几十 ~ 几千参数 |
| 数据 | 互联网级(文本、图像、视频) | 团队自采的领域数据 |
| 训练 | 自监督 + RLHF,体系复杂 | 有监督为主,简单 |
| 成本 | 数千万至亿元 | 万元级 |
| 适用场景 | 通用、多任务、生成式 | 专用、单任务、控制类(要求可重现、可靠) |
所以在结构控制、安全关键系统、实时嵌入式等场景,小模型仍然是首选。不是越大越好。
⑨ GPU 与算力
训练大模型这件事,没有显卡几乎做不到。本节解释:什么是 GPU?它和 CPU 有什么本质区别? 显存为什么这么重要?训练一个 7B / 70B 模型究竟需要多大算力?
9.1 GPU 是什么
显卡(Graphics Processing Unit, GPU)是计算机硬件中的核心组件之一, 最初专门用于处理图形和图像数据。包括:
- GPU 核心:执行图形与计算任务的主要处理单元(数千~万级核心)
- 显存(VRAM):用于存储图形数据与运行时临时变量
- 输出接口:HDMI、DisplayPort 等
- 散热系统:风扇 + 散热器(高负载下保证稳定)
9.2 为什么 AI 训练要用 GPU?
训练大语言模型,就像在做一道巨型数学题:
- 一题有上亿个未知数(模型参数)
- 每次还要反复迭代几百万次
- 核心计算是海量的矩阵乘法
显卡就是这位“数学高手”。它喜欢做海量矩阵乘法,因此并行能力极强; 而 CPU 只有相对少量并行能力——擅长串行复杂逻辑,不擅长重复计算。
9.3 GPU vs CPU — 架构对比
CPU · 串行处理高手
- 核心少(4 ~ 64 个)
- 每个核心强大,擅长复杂控制流
- 适合:操作系统、数据库、串行逻辑
GPU · 并行计算狂魔
- 核心多(数千 ~ 万级)
- 每个核心相对简单,擅长重复计算
- 适合:矩阵运算、图形渲染、深度学习
同样的 1024×1024 矩阵乘法。CPU 串行做,GPU 并行做——谁先完成?
点击 ▶ 开始竞速
9.4 显存(VRAM)—— GPU 的“工作台”
显存就是 GPU 自带的"工作台 + 黑板 + 储物柜",存:
- 模型参数(fp16 → 每参数 2 字节)
- 训练数据中间结果(forward 激活值)
- 梯度(backward 时算出来的)
- 优化器状态(Adam 的 m、v,fp32 → 每参数 4 字节)
显存越大,能塞下的模型越大。
拖动模型规模,看显存需求估算(假设 fp16 训练 + Adam 优化器 + 中等 batch)。
| 模型参数 (fp16) | 14 GB |
| 梯度 (fp16) | 14 GB |
| 优化器状态 (Adam, fp32) | 28 GB |
| 激活值(约) | ~ 7 GB |
| 总计 | 63 GB |
| 推荐硬件 | → 单卡 A100 80 GB 勉强够 |
9.5 专用硬件优化
NVIDIA 专为深度学习设计的张量核心,矩阵乘法吞吐量是普通 CUDA 核的数倍。从 V100 (1st gen) 到 H100 (4th gen) 不断升级。
A100/H100 的显存带宽达 1 ~ 3 TB/s,是普通 DDR5 内存的 30 ~ 100 倍。“数据搬运”快比“计算”还重要。
单卡装不下时多卡接力。NVLink 让 GPU 间带宽达 900 GB/s,远超 PCIe 总线。GPT-4 训练用了约 25 000 张 A100。
9.6 国产替代与开源生态
除了 NVIDIA,国内外都有 AI 加速硬件:
编程框架:PyTorch + CUDA 仍是事实标准; JAX、DeepSpeed、vLLM 等是分布式训练 / 推理的明星框架。
⑩ 提示词工程
既然大模型已经训练好了,怎么“问”它就成了核心技能。 “你给它什么 prompt,它就给你什么回答” —— 这门艺术叫 Prompt Engineering(提示词工程)。 本节给出从直觉到 best practice 的全套方法。
10.1 什么是 Prompt
提示词(Prompt)是一段引导性文本或语音输入, 用于引导大模型系统输出特定信息或执行特定任务。
提示词工程(Prompt Engineering)则是通过反复的人机交互与提示优化, 发掘大模型能力、并最终获得预期输出。
就是 AI 能像一个人一样,人类能以自然的方式与之交互——而不需要学习什么“命令格式”、“键盘快捷键”、“专业术语”。 这就是 Prompt 与传统编程的本质区别。
10.2 Prompt 的本质:激活模型潜力
把大模型当作一个百科全书。提示词可以理解为查询条件或查询诉求—— 但输出并非简单列表,而是经过模型生成能力的再加工。
站在信息论角度看:提示词最好接近 Encoder-Decoder 架构中“瓶颈处的隐变量”—— 这样能最大程度地决定输出内容。
10.3 同样的问题,不同的 Prompt
点击三种 Prompt,看模型对同一问题的不同回答。
10.4 几个经典提示词技巧
加这一句让模型“一步一步想”,对需要逻辑推理的问题准确率显著提升(Chain-of-Thought)。 📚 Kojima et al., 2022, NeurIPS
“你是一位资深结构工程师……” — 让模型进入特定角色,输出更专业、术语更准确。
“这对我职业生涯非常重要” — 实验发现能小幅提升回答质量(EmotionPrompt)。 📚 Li et al., 2023
给 2 ~ 5 个“问—答”示例,模型会模仿格式,称为 In-context Learning。 无需训练,立刻学会新任务。
10.5 上下文学习(In-Context Learning)
无需训练,仅通过 Prompt 里的示例,让模型当场学会新任务:
模型从前两条例子推断出“输入 → 同义词替换”的任务,无需重训。这是 GPT-3 论文的关键发现之一。
10.6 任务拆解(Task Decomposition)
复杂任务一次问模型 → 容易出错;拆解后逐步问 → 准确率显著提升。
→ 容易遗漏关键章节、结构混乱、深度不一致
→ 每步可校验、可修改、可控
10.7 工具使用(Tool Use)
大模型也有不擅长的事 — 比如精确数字计算。 “3.11 和 3.9 哪个大?” 早期 GPT 会答错。
解决:让模型调用工具——
- 计算器 / Python 解释器 — 处理数值(GPT 现在内置)
- 搜索引擎 — 获取实时信息(GPT 已可联网)
- 专业 API — 调用专门数据库或服务
人类也没有尖牙利爪,但发明了各种工具对抗猛兽 — AI 也一样。这就是"Agent"(智能体)的雏形。
10.8 大模型作为搜索引擎
此前,大模型更多是“某一时间点之前知识的提取器”。 现在 GPT 已经可以联网搜索,作为"搜索引擎 + 总结器"使用:
这就是 RAG(Retrieval-Augmented Generation, 检索增强生成) 的基本范式, 也是当前企业落地 LLM 最主流的方式之一。
⑪ 生成式 AI 的挑战与思考
技术总有两面性。生成式 AI 给我们带来巨大便利的同时,也带来了幻觉、隐私、对齐、创作归属等深刻挑战。 本节梳理这些“绕不开的问题”,并以一个开放讨论收尾。
12.1 大模型幻觉(Hallucination)
幻觉,俗称"一本正经地胡说八道":模型自信地给出看似合理但事实错误的回答。
幻觉在教育、工业、医学、科研、数学、法律这些对可靠性、可信度要求较高的领域应用时, 就会让人担忧其表现。更糟糕的是,模型还会跟随提问者的立场快速"改变事实"。
- 美国律师引用 ChatGPT 编造判例——多起案件中律师向法庭提交了 AI 生成的虚构判例,被法官重罚(Mata v. Avianca 已成经典)。
- 2025 年医保拒赔诉讼——Cigna、Humana、UnitedHealth 等保险公司被诉,称其 AI 平均 1.2 秒就拒掉一份医保索赔,2 个月共拒绝 30 万 + 件,许多基于"幻觉式判断"。
- AI 检测学生作弊——某些"AI 内容检测器"产生大量假阳性,导致学生被错误指控抄袭。
点击每条声明判断“真 / 假(幻觉)”,看答案与解释。
12.2 隐私问题
- 数据来源广泛 — 训练时通常使用大量来自互联网的文本(个人博客、社交媒体、新闻)。这些数据可能包含大量个人敏感信息
- 缺乏充分的知情同意 — 数据收集没有得到所有者明确同意
- 数据安全风险 — 存储数据的服务器可能成为黑客目标
- 使用大模型时输入的隐私信息,可能被反向工程从模型中提取
- 用户输入的内容可能被用于后续训练
- 真实案例:2017 年 Equifax 1.47 亿用户信息泄露——LLM 数据集泄露后果更甚
12.3 与人类价值观的对齐(Alignment)
大模型的“对齐”,是当前学术界和产业界最重要的研究方向之一:
不同地域和文化有不同价值观——东方集体主义 vs 西方个人主义。模型很难同时满足。
互联网数据本身有偏见。模型在学习中放大这些偏差。
基于概率统计生成,无法像人类一样基于情感、道德直觉来判断。
人类价值观是动态变化的——例如对性别平等的观念在持续演进。模型更新滞后。
12.4 图灵测试 — 机器能“骗过”人类吗?
1950 年,Alan Turing 在《Computing Machinery and Intelligence》提出: 测试者通过文本与“对方”对话;如果 ≥ 30% 的测试者无法分辨对方是人还是机器, 则该机器通过测试,被认为具备“人类智能”。
2014 年 6 月,聊天程序 "尤金·古斯特曼“ 在英国皇家学会”图灵测试“大会上首次”通过"。
“机器假装自己是人” — 这是 Turing 当年的设想。今天,ChatGPT 已经能在大多数日常对话中难以分辨。
下面 4 段文字,2 段是人写的,2 段是 AI 生成的。你能分辨吗?
12.5 AI 创作 — 有没有“灵魂”?
基于上述技术,AI 已能写诗、作画、谱曲、写小说。问题来了:
“AI 的生成品没有灵魂,不是真正的艺术创作”—— 你的观点呢?艺术的“灵魂”究竟在哪里?
朱老师的观点
AI 作品当然可以是"真正的艺术";关键在于你如何使用它、呈现它,并与观众对话。 就像画家选择油画或水彩一样——创作者选择"大模型 + 显卡 + Prompt"也只是一种媒介决策。
灵魂来自你的动机、筛选、编辑、展示与自我表达,而非工具本身。
灵魂不是“模型有没有”,而是“人如何赋予”。
12.6 给学习者的建议
把它当作"放大器"——它能让你的产出效率 10× 提升,前提是你已经知道方向。
永远保持质疑——尤其是它的输出看似“专业”时。交叉验证,独立判断。
底层原理远比 Prompt 技巧重要。理解它的能力边界——你才能用得好。
⑫ 课后小测
共 15 题,覆盖 4 课时核心内容。完成后查看得分与解析。
🎓 恭喜你完成了 4 课时的生成模型与大模型学习!
本课带你走过:
- 从 Token / 像素 / 采样点出发,理解所有生成的本质
- 四类生成算法:AE → VAE → GAN → 扩散模型
- 颠覆性的 Transformer 与自注意力
- 大模型训练的三阶段:自监督 → SFT → RLHF
- 支撑大模型的 GPU 与算力体系
- 提示词工程与 In-context Learning
- 幻觉、隐私、对齐、创作等深层挑战
下一步建议:
- 动手实践:在 Hugging Face / ModelScope 上跑通一个开源 LLM(如 Qwen3-0.6B)的推理;试用 Ollama 在本地跑 DeepSeek-R1 蒸馏版
- 读经典论文:Transformer(Vaswani 2017)、GPT-3(Brown 2020)、DDPM(Ho 2020)、InstructGPT(Ouyang 2022)、DeepSeek-R1(2025 · Nature)、DiT(Peebles 2023)
- 使用前沿工具:Cursor / Claude Code / Cline 等 AI 编程工具,在实际项目里体会 prompt engineering 与"思考模式"
- 关注前沿:lmarena.ai · llm-stats.com · arxiv-sanity(追踪 SOTA)