生成模型与大模型

① 概览：从 ChatGPT 谈起

2022 年 11 月 30 日，OpenAI 发布 ChatGPT。短短 2 个月用户突破 1 亿，成为史上增长最快的消费级应用。一台无生命的机器，竟然具备了语言能力——这一能力背后到底隐藏了怎样的原理？本课程围绕这条主线，揭开生成式 AI与大模型的全部技术地基。

1.1 ChatGPT 引发的现象级事件

OpenAI 在 2022 年发布的人工智能模型，给人机交互（人工智能 + 自然语言处理）带来了革命性转变。它的几个突出特点：

支持多语种，泛及各类问题的 Q&A
能写诗、写代码、写小说、做数学、做总结
能模拟角色、能给出建议、能“听懂”复杂指令

互动：1 亿用户 · 各应用花了多久？

1.2 ChatGPT 带来的本质思考

💡 一个深刻的问题

语言，曾被认为是人类这种高等生物的专属品。如今，一台无生命的机器竟然具备了语言能力—— 机器这一能力的背后隐藏了怎样的原理？这正是本课程要解答的核心问题。

1.3 大模型的时代：百花齐放

从 2018 年的 GPT-1 至今，大型语言模型（LLM）已经形成了一个庞大的家族：

OpenAI · GPT-5.5 Anthropic · Claude Opus 4.7 Google · Gemini 3.1 Pro Meta · LLaMA 4 阿里 · Qwen3 DeepSeek V4 / R1 智谱 · GLM-5 xAI · Grok 4 百度 · 文心一言字节 · 豆包 Mistral · Mixtral Z.AI · GLM-5

📚 综述：Zhao et al., A Survey of Large Language Models, arXiv:2303.18223（持续更新版）。截至 2026 年 5 月，专精分化是市场主旋律 — 推理模型、多模态、智能体各擅其长。

1.4 4 课时学习路线

课时	主题	核心内容
课时 1	概念 + 早期算法	生成式 vs 判别式 · Token 化 · 自编码器 AE · 变分自编码器 VAE
课时 2	主流生成算法	生成对抗网络 GAN · 扩散模型 Diffusion · Transformer 与自注意力
课时 3	大模型的训练与使用	三阶段训练 (SSL→SFT→RLHF) · 推理模型 / RLVR · Scaling Law · GPU · 提示词工程
课时 4	反思与展望	幻觉 / 隐私 / 对齐 / AI 创作 · 课后小测

1.5 开始前 · 一个直觉问答

互动：你认为下面这段文字是人写的，还是 AI 写的？

“上海地铁 14 号线启用以来，因列车长度比标准车型短近 30%，高峰期单趟运能下降明显，多个站台出现明显的乘客积压现象。运营方表示，将通过缩短发车间隔、增设备用车次等方式缓解客流压力。”

📌 学习提示：每个章节支持逐步展开——底部的控制条点“展开下一节”即可一段段释出；也可一次全部展开自学。

② 生成式 AI 概念

什么是“生成式 AI”？它与传统机器学习的“判别”有什么本质区别？为什么文字、图像、音频、视频都能用同一套思路处理？本节给出概念地基。

2.1 什么是生成式 AI

生成式 AI（Generative AI）是一种能从数据中学习模式、并生成与训练数据具有相似分布或特征的新数据的机器学习技术。

关键词解读：

学习模式——不是死记硬背，而是抓住数据背后的规律
新数据——生成的内容是模型自创，而非检索来的原文
相似分布——新数据“看起来像”训练数据，但又不一样

它可以生成：

文本
文章、对话、代码、诗歌

图像
插画、设计图、艺术创作

音频
音乐、语音、声音克隆

视频
短片、动画、虚拟主播

2.2 一切都由“基本单位”组成

生成式 AI 的本质：把数字（基本单位）按照一定规律以正确的顺序组合起来。

2.2.1 文字 — 由 Token 组成

大模型并不直接处理“汉字”或“英文单词”，而是先把它们切成 Token。一个 Token 可能是一个字、一个常用词、或一段词缀，在模型词表中对应一个整数 ID。

“生成式人工智能” → [“生成”, “式”, “人工”, “智能”] → [12305, 235, 5912, 8819]

官方分词器演示：platform.openai.com/tokenizer

互动 A：在线 Token 化演示

输入一段话，看模型如何把它切成 Token。同一句话，中文用的 Token 比英文多——这就是为什么中文调用大模型常常更贵。

2.2.2 图像 — 由像素组成

每张图都是一个 $H\times W\times C$ 的矩阵。每个像素位置上有 1 个（灰度）或 3 个（RGB）整数。回到刚才那句话——生成式 AI 的本质就是"把数字按正确的顺序拼起来"。

互动 B：图像 = 像素矩阵 · 拖动阈值看二值化

下方网格是 16×16 的一个"⊙"图案。拖动阈值——大于它的像素显蓝色（前景），小于显灰色（背景）。无论你看到的是字、是猫、是建筑——计算机眼里只是这些数字。

阈值 (0–255)：128

这张 16×16 灰度图存储仅需 256 字节——256 个整数。

2.2.3 声音 — 由采样点组成

声音是连续波形，要数字化必须采样。采样率（sampling rate）= 每秒采集多少个点。

CD 音质：44.1 kHz = 每秒 44 100 个数字
电话语音：8 kHz = 每秒 8 000 个数字
专业录音：96 kHz 甚至 192 kHz

互动 C：采样率对声音波形还原的影响

蓝色曲线是真实模拟波形（连续），红点是采样点，橙色虚线是用采样点重建出来的波形。采样率越低，重建越失真（"奈奎斯特定理"指出：采样率必须 ≥ 信号最高频率的 2 倍）。

采样率：24 点

2.3 生成式 vs 判别式

这是两种根本不同的建模思路。

判别式（Discriminative）

寻找一条决策边界，把样本分到对应类别。

$p(y\mid x)$ — 给我 $x$，告诉我标签 $y$

例：垃圾邮件分类、CT 图像诊断、隧道病害类型识别

生成式（Generative）

学习每个类别的内部结构，包含更多信息，可以用来生成新样本。

$p(x,y)$ 或 $p(x\mid y)$ — 给我类别，造一个 $x$

例：写一首诗、画一张图、合成一段语音

互动 D：二维数据上的两种视角

同一份“猫/狗”二维特征点数据。切换视角：判别只画一条线；生成画两团云。

⚡ 关键洞察：生成模型携带的信息比判别更多——它知道每一类“长什么样”，可以反向“造”一个出来；判别只知道“两类的差在哪条线”。

2.4 四类典型生成算法 — 本课的主线

§3-4VAE

变分自编码器
概率化潜空间

§5GAN

生成器 vs 判别器
对抗博弈

§6Diffusion

扩散模型
加噪 → 去噪

§7-8Transformer

自注意力
序列建模之王

③ 自编码器（Autoencoder, AE）

自编码器是 1980 年代就已提出的“复古”网络，但它的思想奠定了几乎所有现代生成模型的基础。它教会我们一件事：高维数据可以被压缩成低维"本质表示"，再从中重建出来。

3.1 结构特点：胖—瘦—胖

自编码器是一个对称的神经网络，由三部分组成：

编码器（Encoder）：把输入 $x$ 压缩成低维向量 $z$（称为隐变量 / 潜空间表示）
瓶颈（Bottleneck）：网络最窄的一层，强迫信息高度浓缩
解码器（Decoder）：从 $z$ 重建出 $\hat x$，期望尽可能接近 $x$

→

输入 $x$（高维）→ 编码 → 瓶颈 $z$（低维） → 解码 → 重建 $\hat x$（高维）

3.2 训练目标

训练数据不需要任何人工标签——输入自己就是标签。这是自监督学习最早的雏形之一。

$$\min_{\theta,\phi}\;\mathcal{L}(x,\hat x)=\|x-\mathrm{Dec}_\phi(\mathrm{Enc}_\theta(x))\|^2$$

“重建损失”约束模型：要想还原 $x$，瓶颈 $z$ 必须抓住 $x$ 中最关键的特征，丢弃冗余。

3.3 直观演示：瓶颈宽度的影响

互动 A：瓶颈宽度 → 重建质量

原图是一个 16×16 的“数字 5”。拖动滑块改变瓶颈维度 $|z|$。维度越小，丢失信息越多，重建越糊。

原图 $x$

→

瓶颈 z（部分值）

→

重建 $\hat x$

瓶颈维度 $|z|$：8 / 256

📊 重建 MSE：— · 压缩率：—×

3.4 思考：瓶颈的物理意义

💭 课堂思考题

当输入数据经过层层处理，通过相对狭窄的瓶颈，又能逆向扩增输出与输入一致时—— 瓶颈区的 $z$ 相比原始输入，具有怎样的特点？

点击展开参考答案

$z$ 是输入数据的压缩表示——它保留了重建所必须的关键信息，丢弃了冗余。这意味着：

Encoder 可作特征提取器——把高维原始数据转成低维稠密的特征向量
Decoder 可作生成器——给它一个 $z$，就能“造”出对应的 $x$

这两个洞察分别奠定了“表示学习”和“生成模型”两大方向。

3.5 把 Decoder 单独拿出来 — 能生成吗？

如果我们随便给训练好的 Decoder 送一个 $z$ 向量，会得到什么？

互动 B：随机 z → Decoder 输出

普通 AE 的潜空间没有“光滑性”或“完整性”约束。它只保证“训练样本对应的 $z$ 解码出原图”，但其它 $z$ 落点是什么意义、能不能解码出合理图像，完全没保证。

采样的 z（8 维）

→

Decoder 输出

观察规律：完全随机的 z → 多半是噪声 / 模糊。这就是为什么我们需要变分自编码器 VAE—— 它强制潜空间“规整”，让随便采一个 z 都能解码出像样的东西。

3.6 AE 的现实用途

数据压缩

用 z 替代原始数据存储，压缩率可达 100× 以上（如视频会议中的人脸压缩）。

异常检测

正常数据重建好，异常数据重建差。隧道衬砌图像的异常区域可由 AE 重建误差自动定位。

去噪 / 修复

Denoising AE：输入加噪图，目标输出干净图——网络学会“忽略噪声、抓住本质”。

④ 变分自编码器（VAE）

AE 已经能“重建”了，但还不能“生成”——因为潜空间太稀疏、太杂乱。 VAE 的关键改动只有一个：把 $z$ 从"一个点“变成”一个概率分布"。就这一个改动，让潜空间变得平滑、可采样、可生成。

4.1 从 AE 到 VAE — 关键改动

AE · 点编码

$$x \;\overset{\text{Enc}}{\longrightarrow}\; z \quad \text{（确定的向量）}$$

每个 $x$ 编码到一个固定的点。训练样本之间的"空地"没有约束——任意 $z$ 解码不一定有意义。

VAE · 分布编码

$$x \;\overset{\text{Enc}}{\longrightarrow}\; (\mu,\sigma) \;\overset{\text{采样}}{\longrightarrow}\; z \sim \mathcal{N}(\mu,\sigma^2)$$

每个 $x$ 编码到一个正态分布。整个潜空间被"填满"——任意 $z$ 都能解码出合理图像。

4.2 直观演示：两种潜空间的差异

互动 A：点击潜空间任意位置 · 看 Decoder 输出

下方 2 维潜空间里散布着 5 个训练样本（数字 0、1、2、3、4）。 点击任意位置看 Decoder 输出。切换 AE / VAE 模式对比：

2D 潜空间（点击采样）

→

点击潜空间

📌 观察：VAE 模式下点击空白处仍能得到合理图像，不同数字之间平滑过渡； AE 模式下点击远离训练点的位置 → 输出多为噪声。

4.3 VAE 的训练目标

VAE 在 AE 的"重建损失"之外，加了一个 KL 散度约束：

$$\mathcal{L}_{\text{VAE}} \;=\; \underbrace{\mathbb{E}\,\|x-\hat{x}\|^2}_{\text{重建损失}} \;+\; \beta \cdot \underbrace{D_{\mathrm{KL}}\!\left(\, q(z\mid x)\,\big\|\,\mathcal{N}(0,I) \,\right)}_{\text{KL 散度}}$$

重建损失

“送回去要像原图”——和 AE 完全相同，保证学到有意义的信息。

KL 散度约束

"潜在分布 $q(z\mid x)$ 要靠近标准正态"——让潜空间"规整"，整片空间都有意义。

$\beta$ 调节两者的权衡：$\beta$ 大 → 潜空间更规整、但重建变模糊；$\beta$ 小 → 重建清晰、但潜空间稀疏。这就是 $\beta$-VAE 的来源。

4.4 重参数化技巧

问题：要训练 VAE，必须能让梯度从 $z$ 流回 $\mu,\sigma$。但"从 $\mathcal{N}(\mu,\sigma^2)$ 采样"这个操作不可微——梯度无法穿过随机采样这一步。

解决：把随机性外部化——

$$z = \mu + \sigma\odot \epsilon,\quad \epsilon\sim\mathcal{N}(0,I)$$

$\mu,\sigma$ 是网络可微输出，$\epsilon$ 是外部噪声常量。梯度顺利穿过 $\mu,\sigma$；$\epsilon$ 不需要梯度。

🔑 一个绝妙的小技巧

重参数化解决了“随机性破坏可微性”这个深度学习中常见的难题。除了 VAE，它在 策略梯度（强化学习）、流模型（normalizing flow）、差分隐私 等领域都有重要应用。

4.5 VAE 潜变量的“可解释性”

当 VAE 训练得当，潜在维度可能对应人类可解释的语义维度——这是经典的"解耦表示"现象。

互动 B：人脸生成 · 拖动滑块控制 4 个语义维度

下方 SVG 模拟一个在人脸数据集上训练好的 VAE。4 个潜在维度被发现分别对应微笑、男性化、肤色、胡须。拖动滑块，看人脸如何连续变化——这种连续过渡是 VAE 平滑潜空间的标志。

$z_1$ 微笑度：0

$z_2$ 男性化：0

$z_3$ 肤色：0

$z_4$ 胡须：0

4.6 VAE 的优缺点

优点	缺点
✓ 训练稳定，目标明确 ✓ 潜空间平滑可插值 ✓ 可生成无限多新样本 ✓ 有概率解释，便于扩展	✗ 生成图像偏模糊（重建 MSE 倾向“求平均”） ✗ 难以生成细节丰富的高分辨率图像 ✗ 模式覆盖不够全

⚡ 这些缺点正是 GAN 和扩散模型试图解决的——后两者都更擅长生成清晰、有细节的图像。

⑤ 生成对抗网络（GAN）

2014 年，Ian Goodfellow 在一次酒吧讨论后回到家，用一晚上完成了第一份代码——这就是 GAN。它彻底改变了生成式 AI 的格局，启发了 StyleGAN、Pix2Pix、CycleGAN 等一系列里程碑工作。

5.1 直觉：警察与造假者的博弈

想象一个造假者（Generator, G）和一位警察（Discriminator, D）：

G 不断造假币，目标是让 D 分不清真假
D 不断学习鉴别，目标是揪出所有假币

两个网络对抗博弈，最终 G 造出的假币与真币分布一致——D 再也分不出来。

5.2 GAN 网络结构

5.3 训练目标（数学）

GAN 是一个极小极大博弈：

$$\min_G \max_D\;\mathbb{E}_{x\sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z)))]$$

判别器 D 想要

$D(x) \to 1$（真图打 1）
$D(G(z)) \to 0$（假图打 0）

生成器 G 想要

$D(G(z)) \to 1$（让假图也被 D 打 1）

从信息论看，G 在最小化"生成分布与真实分布之间的 JS 散度"。当二者完全一致时，D 只能猜（输出恒为 0.5）。

5.4 GAN 训练过程动画

互动 A：实时看 G 与 D 的博弈

蓝点是真实数据分布（两团），绿点是 G 当前生成的数据。背景的红蓝色显示 D 在每个位置打的“真假”概率。点击“训练一步”看 G 如何逐步学到真实分布。

步数 = 0 · G loss = — · D loss = —

⚪ 真实数据 ⚫ 生成数据 — 训练目标：让绿点的分布完全盖住蓝点

5.5 GAN 训练的三大挑战

挑战 1模式崩溃（Mode Collapse）

G 只生成几种样本骗过 D，分布覆盖不全。如：一个数字识别 GAN 可能只生成 1 和 7。

挑战 2训练不稳定

两个网络力量需平衡。D 太强 → G 学不动；D 太弱 → 学不到东西。Loss 经常震荡。

挑战 3梯度消失

D 太强时 $\log(1-D(G(z)))$ 接近 0，G 没有可用梯度。常用 trick：把目标改为 $-\log D(G(z))$。

5.6 GAN 家族

名称	核心创新	典型应用
DCGAN (2015)	把全连接换成卷积	图像生成基础架构
cGAN	条件输入（类别 / 文本）	按指令生成
Pix2Pix / CycleGAN	图像翻译	素描 → 实物 / 风格迁移
WGAN / WGAN-GP	Wasserstein 距离替代 JS	稳定训练
StyleGAN (2018)	风格 / 内容解耦	照片级人脸合成
BigGAN (2019)	大批量类条件生成	ImageNet 类样本合成

⑥ 扩散模型（Diffusion Model）

扩散模型在 2020 年前后异军突起，迅速在细粒度图像生成中超越 GAN，成为 Stable Diffusion、DALL·E、Sora 的底层算法。它的核心思想很反直觉：先把图弄坏，再学着把它“修”回来。

6.1 灵感：气体扩散

🧪 物理直觉

想象在一杯清水里滴一滴墨水。墨水会逐渐扩散，最终整杯水变成均匀的灰色。如果我们能把这个过程反过来——从灰色水中“还原”出最初那滴墨水—— 我们就掌握了一种从噪声中生成有结构数据的能力。

6.2 前向过程（加噪）

给一张干净图像 $x_0$，分 $T$ 步逐渐加高斯噪声：

$$\begin{aligned} x_t \;&=\; \sqrt{1-\beta_t}\;\, x_{t-1} \;+\; \sqrt{\beta_t}\;\, \epsilon_t \\[4pt] \epsilon_t \;&\sim\; \mathcal{N}(0,\,I) \end{aligned}$$

$\beta_t$ 是事先定好的“噪声调度”，$T$ 通常取 1000。当 $T$ 充分大时，$x_T$ 几乎是纯高斯噪声 $\mathcal{N}(0,I)$。这一步无需训练——纯加噪。

互动 A：前向加噪过程（拖动时间步看变化）

时间步 t：0 / 100

从干净的“建筑”图像逐步加噪，到 t=100 时几乎全是噪声。

6.3 反向过程（去噪）

关键想法：训练一个网络 $\epsilon_\theta(x_t,t)$，从含噪 $x_t$ 中预测出加进去的噪声 $\epsilon$。既然能预测出加了什么，自然可以减去它，得到 $x_{t-1}$。

训练目标极其简洁：

$$\mathcal{L} = \mathbb{E}_{x_0,\epsilon,t}\,\big[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\big]$$

训练时随机采样 $t$ 与 $\epsilon$，让网络学习“在第 $t$ 步，加了什么样的噪声”。

互动 B：反向去噪 · 从纯噪声生成图像

点击“去噪一步”看每一步如何把噪声向清晰图像推一点。这是一个 Markov 链： $x_T \to x_{T-1} \to \cdots \to x_0$。

t = 100

6.4 扩散模型 vs GAN — 优劣对比

维度	GAN	Diffusion
样本质量	高（StyleGAN 已可达照片级）	更高（细粒度图像 SOTA）
分布覆盖	容易模式崩溃	覆盖全
训练稳定性	不稳定	稳定
推理速度	单步，快	需 $T$ 步迭代，慢
条件控制	较难	容易（classifier-free guidance）
代表作	StyleGAN、BigGAN	Stable Diffusion、DALL·E 2/3、Sora

6.5 Diffusion Transformer (DiT)

2022 年提出的 DiT 把去噪网络的主干从 U-Net 换成 Transformer，迅速成为 Sora 2 / Veo 3 / Stable Diffusion 3 等顶级模型的底层架构。它能高效捕获数据中的长距离依赖，扩展性更好。

文字提示词

→

Patch 化 $x_T$

→

Transformer 去噪 × T

→

$x_0$ 图像 / 视频

6.6 视频生成新时代（2025–2026）

2025 年 9 月 30 日，OpenAI 发布 Sora 2，标志着 AI 视频生成进入"有声 4 K"时代—— 模型一次性输出视频 + 同步对白 + 环境音 + 音效，全部由模型自己生成。

同期 Google 发布 Veo 3 / 3.1，主打 4 K + 影院级镜头语言；快手发布 Kling 3.0，国内字节 Seedance 2.0、RunwayML Gen-4.5 等都达到了商用级别。

模型	厂商	核心特色
Sora 2	OpenAI	有声合成、长 prompt 一致性（注：Sora 应用 2026-04 下线，API 9 月停止）
Veo 3.1	Google	4 K、影院级镜头、同步音轨
Kling 3.0	快手	视觉保真度最高，中文 prompt 友好
Seedance 2.0	字节跳动	多镜头叙事、专业级运动
SVD 2 (Stable Video Diffusion)	Stability AI	开源、可本地部署、可微调

⚡ 这意味着：影视、广告、游戏行业的工作流，正在经历结构性重塑。一个人 + 一个 GPU，就可以做过去需要几十人团队才能做的内容。

6.7 扩散模型的几个直觉问答

❓ 为什么扩散比 GAN 容易训练？

GAN 是两个网络博弈——目标不收敛，需要小心平衡。扩散是一个网络做监督学习——目标就是预测一个已知噪声 $\epsilon$，标准的 MSE 损失。监督学习永远比博弈学习稳定。

❓ 为什么扩散生成图比 GAN 慢？

GAN 一次前向就得到结果。扩散要做 $T$ 次（典型 50—1000 次）前向才能从纯噪声“修”出清晰图像。所以加速扩散采样（如 DDIM、LCM、Consistency Model）是当前研究热点。

⑦ Transformer 与自注意力

2017 年 6 月，Google 团队发表了一篇仅 9 页的论文 —— 《Attention Is All You Need》。被引超过 14 万次，掀起了自然语言处理乃至整个 AI 领域的革命。今天所有大模型（GPT、Claude、LLaMA）的底层都是它。

7.1 一篇引发革命的论文

Transformer 抛弃了 RNN/LSTM 那种“逐字处理”的循环结构，带来了两大改变：

纯并行化处理长序列 — 训练效率大幅提升
核心机制是 self-attention（自注意力） — 每个 Token 都能“看见”序列中所有其他 Token
架构通用 — 文本、图像（ViT）、音频（Whisper）、视频（Sora）都用同一套

7.2 Transformer 处理数据的流程

原始输入

→

Tokenization

→

Input Embedding

→

Self-Attention × N

→

Feed-Forward

→

Output

阶段	作用
Tokenization	把文字切成 Token，把图像切成 Patch（小块）
Embedding	把每个 Token 映射成高维向量（“理解”它的含义）
Self-Attention	每个 Token 看向其他 Token，决定“该听谁”
FFN	对每个 Token 单独做一次非线性变换

7.3 自注意力的核心：Q、K、V

每个 Token 通过三个矩阵被投影成三个向量：

Query (Q)

我想找什么样的信息？

Key (K)

我是什么样的内容（能被检索的关键）？

Value (V)

我的实际内容是什么？

注意力打分公式：

$$\text{Attention}(Q,K,V)=\text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right)V$$

直观：用 $Q$ 与所有 $K$ 算相似度（点积），softmax 后得到注意力权重，加权求和所有 $V$。

7.4 可视化：Self-Attention 在做什么

互动 A：经典例句 — The animal didn't cross the street because it was too tired

这里的 it 是指 "animal" 还是 "street"？人类一眼就懂——它指 animal，因为 "tired" 更适合动物。点击左侧任意 Token，看模型学到的注意力权重（线越粗 = 权重越大）。

📌 重点观察：点击 it，会发现它极强地指向 animal，而不是 street—— 这就是 Transformer 自己从大量文本中学到的“指代解析”，无需任何语法规则。

7.5 自回归生成 — 一个 Token 一个 Token 地吐

GPT 系列采用 Autoregressive Generation：

给定前 $n$ 个 Token，模型输出第 $n+1$ 个 Token 的概率分布
采样或贪心选一个 Token
把它追加到输入末尾，回到第 1 步

所以聊天界面里"字一个个蹦出来"的体验，正是这种逐 Token 生成的真实过程。

互动 B：自回归生成演示

点击“生成下一个 Token”——每次只多吐一个词。注意：每个新 Token 都依赖之前所有 Token。

7.6 三类 Transformer 架构

Encoder-only（BERT）

双向理解，适合分类、抽取、问答等理解类任务。每个 Token 看全部上下文。

Decoder-only（GPT）

单向自回归生成，适合写作、对话、代码等生成类任务。每个 Token 只看左边的。

Encoder-Decoder（T5、Bart）

编码理解 + 解码生成，适合翻译、摘要等“输入→输出”任务。

📝 一句话总结

"Attention is all you need" 这个标题已成为预言：今天几乎所有突破性 AI 模型—— GPT、Claude、Gemini、Stable Diffusion、Sora——核心都是某种形式的 Transformer + Attention。

⑧ 大模型的训练

什么叫“大”？参数规模通常以 B（Billion 十亿）为单位。 “大到一定程度，量变会引起质变” —— 这就是 Scaling Law。而把一个 GPT 训练成 ChatGPT，需要经历严格的三个阶段。

8.1 什么叫“大”？

“大”的 AI 模型 — 模型参数量常以 B 为单位表示。例如 8B 就表示 80 亿参数。

模型	参数量	发布	典型用途
GPT-2	1.5 B	2019	开源生成
GPT-3	175 B	2020	首个大规模通用 LLM
LLaMA-2	7 B / 13 B / 70 B	2023	开源 LLM 标杆
GPT-4	~ 1.8 T（推测，MoE）	2023	商用旗舰
DeepSeek-V3	671 B（MoE，激活 37 B）	2024 末	开源 MoE 旗舰
DeepSeek-R1	671 B（MoE）	2025-01	首个开源推理模型 · 媲美 o1
Qwen3	0.6 / 1.7 / 4 / 8 / 14 / 32 / 235 B	2025	混合推理（可切换思考模式）
GPT-5 / 5.5	未公开（多模态原生）	2025–2026	OpenAI 旗舰
Claude Opus 4.7	未公开（1 M token 上下文）	2026	编程 SOTA · SWE-bench Pro 64.3 %
Gemini 3.1 Pro	未公开	2026	多模态 · GPQA Diamond 94.3 %
DeepSeek-V4	大幅扩容，超长上下文	2026-04	Agentic 工作流优化

💾 内存粗算：8 B 参数 · fp16 存储（每参数 2 字节）→ 仅参数就占 16 GB 显存。
🚀 2026 趋势：参数不再是单一衡量标尺——架构（MoE）、上下文长度（1 M token）、推理能力（链式思考）成为新的差异化维度。

8.2 Scaling Law — 量变引起质变

OpenAI 与 DeepMind 通过大量实验发现：在训练方法得当的前提下，持续增加：

模型规模 $N$（参数量）
数据量 $D$（token 数）
计算资源 $C$（用 PF-days 衡量）

模型测试误差持续下降，且呈幂律：

$$L(N)\approx\!\left(\frac{N_c}{N}\right)^{\!\alpha_N},\quad L(D)\approx\!\left(\frac{D_c}{D}\right)^{\!\alpha_D},\quad L(C)\approx\!\left(\frac{C_c}{C}\right)^{\!\alpha_C}$$

PF-days = 一台机器以 1 PFLOPS（每秒 10¹⁵ 次浮点运算）跑一天 = 8.64 × 10¹⁹ FLOPs。

互动 A：Scaling Law 曲线

拖动滑块改变模型规模 / 数据量 / 算力，看预测损失。注意 X 轴是对数。

模型 N (B)：10

数据 D (B tok)：100

算力 C (PF-days)：100

三条曲线分别展示损失随规模、数据、算力的下降；红点是当前位置。

8.3 三阶段训练流程

训练一个 ChatGPT，需要经历三个连贯的阶段：

阶段一 · Self-Supervised Learning（自监督预训练）

目标：从海量无标注文本（互联网级别，数百 B token）中学习语言知识。

Next Token Prediction（GPT 主流）：给定前 N 个 Token，预测第 N+1 个
Masked Language Modeling（BERT 主流）：遮掉句中部分 Token，让模型猜

输入: “今天晚上去 ___”
模型输出概率分布: 上课(0.32), 吃饭(0.21), 看电影(0.15), 健身房(0.08), ...

此阶段最贵——GPT-3 一次预训练成本约 460 万美元。模型只会“补全句子”，不会按指令做事。

阶段二 · Instruction Tuning（指令微调 / SFT）

目标：教模型听懂“指令”并按“答案格式”回答。

把"指令 + 答案"格式的数据喂给模型。数据量从数千到数十万条不等：

指令: “把下面这句话翻译成英文 — '今天天气真好'”
答案: "The weather is really nice today."

原来模型只会“补全句子”，现在它学会了"听人话、照指令做事“，像是”教 AI 写作业"。 GPT 能和我们对话、帮忙答题——靠的就是这一步。

阶段三 · RLHF（人类反馈强化学习）

目标：让模型回答更符合人类偏好（更安全、更礼貌、更准确、更有用）。

流程：

让模型对同一问题生成多个回答
人类标注员给这些回答排序（哪个更好）
训练一个 奖励模型（Reward Model），预测人类偏好分数
用强化学习（PPO 算法）让大模型最大化奖励分数

🔑 RLHF 的真正难点

第一阶段预训练模型的可靠度至关重要——只有起点足够好，后续微调才有意义。然而，在 ChatGPT 之前，从未有一个足够可靠的预训练大模型公开可用。这就是 OpenAI 的护城河。

互动 B：训练阶段动画

点击各阶段，看模型从“补全句子的工具”到“对话助手”的演化。

8.4 推理模型：第二种训练范式（2024 年底以来的新形态）

从 2024 年底起，AI 出现了一类全新的模型形态——推理模型（Reasoning Model）。 OpenAI 的 o1 / o3、DeepSeek 的 R1、Anthropic 的 Claude Opus 4.7 Thinking、Google 的 Gemini Thinking……都属于这一类。

· 推理模型与普通 LLM 的核心区别

	普通 LLM（如 GPT-4）	推理模型（如 DeepSeek R1）
训练目标	预测下一个 Token	给出正确的最终答案，过程可以试错
关键技术	SFT + RLHF	RLVR（可验证奖励的强化学习）
推理风格	直接给答案	长链式思考（数千 Token 内部 monologue）
擅长场景	对话、写作、翻译	数学、代码、逻辑推理
速度成本	快	慢 5–50 ×，因为要"想很久"

· RLVR — 没有 SFT 也能训练

更激进的是，DeepSeek R1-Zero 完全跳过了 SFT 阶段，直接对预训练模型做大规模强化学习—— 只要答案能被自动验证（数学题的对错、代码能否通过单元测试），就给奖励：

$$\text{Reward} = \begin{cases} +1, & \text{答案正确 / 代码通过测试} \\ -1, & \text{否则} \end{cases}$$

令人惊讶的是：模型自己学会了"反思 (reflect)"和"换一种方法 (let me try)"等高级推理行为—— 无需人类示范，纯粹从强化学习中涌现。这是 2025 年 AI 研究最重要的发现之一。

📚 DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL, arXiv:2501.12948 · Nature 2025

8.5 混合推理模型（Hybrid Reasoning）

2025 年下半年开始，Qwen3、Claude Opus 4.7、Gemini 3.1 等模型支持一键切换"思考模式"——

普通模式：快速回答 ☞ 适合闲聊、简单任务
思考模式：长链思考 ☞ 适合编程、数学、复杂分析

这意味着"一个模型两种性格"——用户根据问题难度自由选择，平衡速度与精度。

💡 2026 的实践共识

"简单问题用闪电模式，难题用慢思考"——已经成为程序员、研究者使用大模型的默认习惯。 Cursor / Claude Code / Cline 等 AI 编程工具都默认提供"思考"开关。

8.6 LLaMA 与"开源模型崛起"

2023 年 Meta 开源 LLaMA（Large Language Model Meta AI）；2024 年 LLaMA-3；2025 年 LLaMA-4。它催生了整个 LLaMA 家族：Alpaca、Vicuna、WizardLM、Code LLaMA……

"站在巨人肩膀上微调"成为 LLM 开发主流路径——学校实验室、初创公司都能玩 LLM 了。

2024–2025 的另一里程碑：中国开源模型崛起。 Qwen、DeepSeek、GLM、Baichuan 在国际排行榜上多次登顶；尤其 DeepSeek R1 的开源被国际媒体称作"中国版 ChatGPT 时刻"。

📚 综述：A Survey of Large Language Models, arXiv:2303.18223（社区持续更新）

8.7 大模型 vs 小模型 — 何时用哪个？

维度	大模型	小模型
结构	多个简单单元堆叠 → B 级参数	几层、几十 ~ 几千参数
数据	互联网级（文本、图像、视频）	团队自采的领域数据
训练	自监督 + RLHF，体系复杂	有监督为主，简单
成本	数千万至亿元	万元级
适用场景	通用、多任务、生成式	专用、单任务、控制类（要求可重现、可靠）

所以在结构控制、安全关键系统、实时嵌入式等场景，小模型仍然是首选。不是越大越好。

⑨ GPU 与算力

训练大模型这件事，没有显卡几乎做不到。本节解释：什么是 GPU？它和 CPU 有什么本质区别？显存为什么这么重要？训练一个 7B / 70B 模型究竟需要多大算力？

9.1 GPU 是什么

显卡（Graphics Processing Unit, GPU）是计算机硬件中的核心组件之一，最初专门用于处理图形和图像数据。包括：

GPU 核心：执行图形与计算任务的主要处理单元（数千~万级核心）
显存（VRAM）：用于存储图形数据与运行时临时变量
输出接口：HDMI、DisplayPort 等
散热系统：风扇 + 散热器（高负载下保证稳定）

9.2 为什么 AI 训练要用 GPU？

💡 一个生动的比喻

训练大语言模型，就像在做一道巨型数学题：

一题有上亿个未知数（模型参数）
每次还要反复迭代几百万次
核心计算是海量的矩阵乘法

显卡就是这位“数学高手”。它喜欢做海量矩阵乘法，因此并行能力极强；而 CPU 只有相对少量并行能力——擅长串行复杂逻辑，不擅长重复计算。

9.3 GPU vs CPU — 架构对比

CPU · 串行处理高手

核心少（4 ~ 64 个）
每个核心强大，擅长复杂控制流
适合：操作系统、数据库、串行逻辑

GPU · 并行计算狂魔

核心多（数千 ~ 万级）
每个核心相对简单，擅长重复计算
适合：矩阵运算、图形渲染、深度学习

互动 A：CPU vs GPU 矩阵乘法竞速

同样的 1024×1024 矩阵乘法。CPU 串行做，GPU 并行做——谁先完成？

CPU

— ms

GPU

— ms

点击 ▶ 开始竞速

9.4 显存（VRAM）—— GPU 的“工作台”

显存就是 GPU 自带的"工作台 + 黑板 + 储物柜"，存：

模型参数（fp16 → 每参数 2 字节）
训练数据中间结果（forward 激活值）
梯度（backward 时算出来的）
优化器状态（Adam 的 m、v，fp32 → 每参数 4 字节）

显存越大，能塞下的模型越大。

互动 B：训练一个 LLM 需要多大显存？

拖动模型规模，看显存需求估算（假设 fp16 训练 + Adam 优化器 + 中等 batch）。

模型参数 (B)：7

模型参数 (fp16)	14 GB
梯度 (fp16)	14 GB
优化器状态 (Adam, fp32)	28 GB
激活值（约）	~ 7 GB
总计	63 GB
推荐硬件	→ 单卡 A100 80 GB 勉强够

9.5 专用硬件优化

Tensor Cores

NVIDIA 专为深度学习设计的张量核心，矩阵乘法吞吐量是普通 CUDA 核的数倍。从 V100 (1st gen) 到 H100 (4th gen) 不断升级。

高带宽内存 (HBM)

A100/H100 的显存带宽达 1 ~ 3 TB/s，是普通 DDR5 内存的 30 ~ 100 倍。“数据搬运”快比“计算”还重要。

NVLink / 多卡互联

单卡装不下时多卡接力。NVLink 让 GPU 间带宽达 900 GB/s，远超 PCIe 总线。GPT-4 训练用了约 25 000 张 A100。

9.6 国产替代与开源生态

除了 NVIDIA，国内外都有 AI 加速硬件：

华为 · 昇腾 Ascend 寒武纪 · 思元百度 · 昆仑芯 AMD · MI300X Google · TPU Apple · M 系列 Neural Engine

编程框架：PyTorch + CUDA 仍是事实标准； JAX、DeepSpeed、vLLM 等是分布式训练 / 推理的明星框架。

⑩ 提示词工程

既然大模型已经训练好了，怎么“问”它就成了核心技能。 “你给它什么 prompt，它就给你什么回答” —— 这门艺术叫 Prompt Engineering（提示词工程）。本节给出从直觉到 best practice 的全套方法。

10.1 什么是 Prompt

提示词（Prompt）是一段引导性文本或语音输入，用于引导大模型系统输出特定信息或执行特定任务。

提示词工程（Prompt Engineering）则是通过反复的人机交互与提示优化，发掘大模型能力、并最终获得预期输出。

🎯 最理想的人机交互是什么？

就是 AI 能像一个人一样，人类能以自然的方式与之交互——而不需要学习什么“命令格式”、“键盘快捷键”、“专业术语”。这就是 Prompt 与传统编程的本质区别。

10.2 Prompt 的本质：激活模型潜力

把大模型当作一个百科全书。提示词可以理解为查询条件或查询诉求—— 但输出并非简单列表，而是经过模型生成能力的再加工。

站在信息论角度看：提示词最好接近 Encoder-Decoder 架构中“瓶颈处的隐变量”—— 这样能最大程度地决定输出内容。

10.3 同样的问题，不同的 Prompt

互动 A：三种 Prompt 风格对比

点击三种 Prompt，看模型对同一问题的不同回答。

Prompt:

Output: 

10.4 几个经典提示词技巧

技巧 1Let's think step by step

加这一句让模型“一步一步想”，对需要逻辑推理的问题准确率显著提升（Chain-of-Thought）。 📚 Kojima et al., 2022, NeurIPS

技巧 2角色扮演

“你是一位资深结构工程师……” — 让模型进入特定角色，输出更专业、术语更准确。

技巧 3情绪激励 / “勒索”

“这对我职业生涯非常重要” — 实验发现能小幅提升回答质量（EmotionPrompt）。 📚 Li et al., 2023

技巧 4Few-shot 示例

给 2 ~ 5 个“问—答”示例，模型会模仿格式，称为 In-context Learning。无需训练，立刻学会新任务。

10.5 上下文学习（In-Context Learning）

无需训练，仅通过 Prompt 里的示例，让模型当场学会新任务：

输入: 高兴 → 开心
输入: 难过 → 伤心
输入: 生气 → ???

输出: 愤怒 ✓

模型从前两条例子推断出“输入 → 同义词替换”的任务，无需重训。这是 GPT-3 论文的关键发现之一。

10.6 任务拆解（Task Decomposition）

复杂任务一次问模型 → 容易出错；拆解后逐步问 → 准确率显著提升。

互动 B：拆解任务范例 — 写隧道病害检测报告

❌ 一次性 Prompt

请写一份完整的隧道病害检测报告。

→ 容易遗漏关键章节、结构混乱、深度不一致

✓ 分步 Prompt

① 列出报告应包含哪些章节
② 针对“病害类型”，列举常见 5 类
③ 针对每一类，描述检测方法
④ 整合成最终报告

→ 每步可校验、可修改、可控

10.7 工具使用（Tool Use）

大模型也有不擅长的事 — 比如精确数字计算。 “3.11 和 3.9 哪个大？” 早期 GPT 会答错。

解决：让模型调用工具——

计算器 / Python 解释器 — 处理数值（GPT 现在内置）
搜索引擎 — 获取实时信息（GPT 已可联网）
专业 API — 调用专门数据库或服务

人类也没有尖牙利爪，但发明了各种工具对抗猛兽 — AI 也一样。这就是"Agent"（智能体）的雏形。

10.8 大模型作为搜索引擎

此前，大模型更多是“某一时间点之前知识的提取器”。现在 GPT 已经可以联网搜索，作为"搜索引擎 + 总结器"使用：

问题

→

网络/资料库

→

搜索结果

→

语言模型 (总结)

→

专业回答

这就是 RAG（Retrieval-Augmented Generation, 检索增强生成） 的基本范式，也是当前企业落地 LLM 最主流的方式之一。

⑪ 生成式 AI 的挑战与思考

技术总有两面性。生成式 AI 给我们带来巨大便利的同时，也带来了幻觉、隐私、对齐、创作归属等深刻挑战。本节梳理这些“绕不开的问题”，并以一个开放讨论收尾。

12.1 大模型幻觉（Hallucination）

幻觉，俗称"一本正经地胡说八道"：模型自信地给出看似合理但事实错误的回答。

幻觉在教育、工业、医学、科研、数学、法律这些对可靠性、可信度要求较高的领域应用时，就会让人担忧其表现。更糟糕的是，模型还会跟随提问者的立场快速"改变事实"。

📰 2025–2026 真实案例

美国律师引用 ChatGPT 编造判例——多起案件中律师向法庭提交了 AI 生成的虚构判例，被法官重罚（Mata v. Avianca 已成经典）。
2025 年医保拒赔诉讼——Cigna、Humana、UnitedHealth 等保险公司被诉，称其 AI 平均 1.2 秒就拒掉一份医保索赔，2 个月共拒绝 30 万 + 件，许多基于"幻觉式判断"。
AI 检测学生作弊——某些"AI 内容检测器"产生大量假阳性，导致学生被错误指控抄袭。

互动 A：识别幻觉 — 下面这些声明哪些是真的？

点击每条声明判断“真 / 假（幻觉）”，看答案与解释。

12.2 隐私问题

训练数据隐私

数据来源广泛 — 训练时通常使用大量来自互联网的文本（个人博客、社交媒体、新闻）。这些数据可能包含大量个人敏感信息
缺乏充分的知情同意 — 数据收集没有得到所有者明确同意
数据安全风险 — 存储数据的服务器可能成为黑客目标

用户使用隐私

使用大模型时输入的隐私信息，可能被反向工程从模型中提取
用户输入的内容可能被用于后续训练
真实案例：2017 年 Equifax 1.47 亿用户信息泄露——LLM 数据集泄露后果更甚

12.3 与人类价值观的对齐（Alignment）

大模型的“对齐”，是当前学术界和产业界最重要的研究方向之一：

价值观多样性

不同地域和文化有不同价值观——东方集体主义 vs 西方个人主义。模型很难同时满足。

数据偏差

互联网数据本身有偏见。模型在学习中放大这些偏差。

缺乏内在判断

基于概率统计生成，无法像人类一样基于情感、道德直觉来判断。

动态适应挑战

人类价值观是动态变化的——例如对性别平等的观念在持续演进。模型更新滞后。

12.4 图灵测试 — 机器能“骗过”人类吗？

1950 年，Alan Turing 在《Computing Machinery and Intelligence》提出：测试者通过文本与“对方”对话；如果 ≥ 30% 的测试者无法分辨对方是人还是机器，则该机器通过测试，被认为具备“人类智能”。

2014 年 6 月，聊天程序 "尤金·古斯特曼“ 在英国皇家学会”图灵测试“大会上首次”通过"。

“机器假装自己是人” — 这是 Turing 当年的设想。今天，ChatGPT 已经能在大多数日常对话中难以分辨。

互动 B：迷你图灵测试

下面 4 段文字，2 段是人写的，2 段是 AI 生成的。你能分辨吗？

12.5 AI 创作 — 有没有“灵魂”？

基于上述技术，AI 已能写诗、作画、谱曲、写小说。问题来了：

❓ 课堂讨论

“AI 的生成品没有灵魂，不是真正的艺术创作”—— 你的观点呢？艺术的“灵魂”究竟在哪里？

互动 C：你怎么看？

朱老师的观点

AI 作品当然可以是"真正的艺术"；关键在于你如何使用它、呈现它，并与观众对话。就像画家选择油画或水彩一样——创作者选择"大模型 + 显卡 + Prompt"也只是一种媒介决策。

灵魂来自你的动机、筛选、编辑、展示与自我表达，而非工具本身。

灵魂不是“模型有没有”，而是“人如何赋予”。

12.6 给学习者的建议

用

把它当作"放大器"——它能让你的产出效率 10× 提升，前提是你已经知道方向。

辨

永远保持质疑——尤其是它的输出看似“专业”时。交叉验证，独立判断。

学

底层原理远比 Prompt 技巧重要。理解它的能力边界——你才能用得好。

⑫ 课后小测

共 15 题，覆盖 4 课时核心内容。完成后查看得分与解析。

🎓 恭喜你完成了 4 课时的生成模型与大模型学习！

本课带你走过：

从 Token / 像素 / 采样点出发，理解所有生成的本质
四类生成算法：AE → VAE → GAN → 扩散模型
颠覆性的 Transformer 与自注意力
大模型训练的三阶段：自监督 → SFT → RLHF
支撑大模型的 GPU 与算力体系
提示词工程与 In-context Learning
幻觉、隐私、对齐、创作等深层挑战

下一步建议：

动手实践：在 Hugging Face / ModelScope 上跑通一个开源 LLM（如 Qwen3-0.6B）的推理；试用 Ollama 在本地跑 DeepSeek-R1 蒸馏版
读经典论文：Transformer（Vaswani 2017）、GPT-3（Brown 2020）、DDPM（Ho 2020）、InstructGPT（Ouyang 2022）、DeepSeek-R1（2025 · Nature）、DiT（Peebles 2023）
使用前沿工具：Cursor / Claude Code / Cline 等 AI 编程工具，在实际项目里体会 prompt engineering 与"思考模式"
关注前沿：lmarena.ai · llm-stats.com · arxiv-sanity（追踪 SOTA）