生成模型与大模型 · 互动课堂

同济大学 · 智慧建造与低碳环境大类 · 《人工智能科学与技术》教研组 · 第九章(4 课时)

① 概览:从 ChatGPT 谈起

2022 年 11 月 30 日,OpenAI 发布 ChatGPT。短短 2 个月用户突破 1 亿,成为史上增长最快的消费级应用。 一台无生命的机器,竟然具备了语言能力——这一能力背后到底隐藏了怎样的原理? 本课程围绕这条主线,揭开生成式 AI大模型的全部技术地基。

1.1 ChatGPT 引发的现象级事件

OpenAI 在 2022 年发布的人工智能模型,给人机交互(人工智能 + 自然语言处理)带来了革命性转变。它的几个突出特点:

  • 支持多语种,泛及各类问题的 Q&A
  • 能写诗、写代码、写小说、做数学、做总结
  • 能模拟角色、能给出建议、能“听懂”复杂指令
互动:1 亿用户 · 各应用花了多久?
达到 1 亿用户所需时间对比 ChatGPT2 个月 TikTok9 个月 Instagram30 个月 WhatsApp42 个月 Facebook54 个月

1.2 ChatGPT 带来的本质思考

💡 一个深刻的问题

语言,曾被认为是人类这种高等生物的专属品。如今,一台无生命的机器竟然具备了语言能力—— 机器这一能力的背后隐藏了怎样的原理?这正是本课程要解答的核心问题。

1.3 大模型的时代:百花齐放

从 2018 年的 GPT-1 至今,大型语言模型(LLM)已经形成了一个庞大的家族:

OpenAI · GPT-5.5 Anthropic · Claude Opus 4.7 Google · Gemini 3.1 Pro Meta · LLaMA 4 阿里 · Qwen3 DeepSeek V4 / R1 智谱 · GLM-5 xAI · Grok 4 百度 · 文心一言 字节 · 豆包 Mistral · Mixtral Z.AI · GLM-5

📚 综述:Zhao et al., A Survey of Large Language Models, arXiv:2303.18223(持续更新版)。截至 2026 年 5 月,专精分化是市场主旋律 — 推理模型、多模态、智能体各擅其长。

1.4 4 课时学习路线

课时主题核心内容
课时 1概念 + 早期算法生成式 vs 判别式 · Token 化 · 自编码器 AE · 变分自编码器 VAE
课时 2主流生成算法生成对抗网络 GAN · 扩散模型 Diffusion · Transformer 与自注意力
课时 3大模型的训练与使用三阶段训练 (SSL→SFT→RLHF) · 推理模型 / RLVR · Scaling Law · GPU · 提示词工程
课时 4反思与展望幻觉 / 隐私 / 对齐 / AI 创作 · 课后小测

1.5 开始前 · 一个直觉问答

互动:你认为下面这段文字是人写的,还是 AI 写的?
“上海地铁 14 号线启用以来,因列车长度比标准车型短近 30%,高峰期单趟运能下降明显,多个站台出现明显的乘客积压现象。运营方表示,将通过缩短发车间隔、增设备用车次等方式缓解客流压力。”

📌 学习提示:每个章节支持逐步展开——底部的控制条点“展开下一节”即可一段段释出;也可一次全部展开自学。

② 生成式 AI 概念

什么是“生成式 AI”?它与传统机器学习的“判别”有什么本质区别?为什么文字、图像、音频、视频都能用同一套思路处理? 本节给出概念地基。

2.1 什么是生成式 AI

生成式 AI(Generative AI)是一种能从数据中学习模式、并生成与训练数据具有相似分布或特征新数据的机器学习技术。

关键词解读:

  • 学习模式——不是死记硬背,而是抓住数据背后的规律
  • 新数据——生成的内容是模型自创,而非检索来的原文
  • 相似分布——新数据“看起来像”训练数据,但又不一样

它可以生成:

文本
文章、对话、代码、诗歌
图像
插画、设计图、艺术创作
音频
音乐、语音、声音克隆
视频
短片、动画、虚拟主播

2.2 一切都由“基本单位”组成

生成式 AI 的本质:把数字(基本单位)按照一定规律以正确的顺序组合起来。

2.2.1 文字 — 由 Token 组成

大模型并不直接处理“汉字”或“英文单词”,而是先把它们切成 Token。一个 Token 可能是一个字、一个常用词、或一段词缀, 在模型词表中对应一个整数 ID

“生成式人工智能” → [“生成”, “式”, “人工”, “智能”] → [12305, 235, 5912, 8819]

官方分词器演示:platform.openai.com/tokenizer

互动 A:在线 Token 化演示

输入一段话,看模型如何把它切成 Token。同一句话,中文用的 Token 比英文多——这就是为什么中文调用大模型常常更贵。

2.2.2 图像 — 由像素组成

每张图都是一个 $H\times W\times C$ 的矩阵。每个像素位置上有 1 个(灰度)或 3 个(RGB)整数。 回到刚才那句话——生成式 AI 的本质就是"把数字按正确的顺序拼起来"。

互动 B:图像 = 像素矩阵 · 拖动阈值看二值化

下方网格是 16×16 的一个"⊙"图案。拖动阈值——大于它的像素显蓝色(前景),小于显灰色(背景)。 无论你看到的是字、是猫、是建筑——计算机眼里只是这些数字

这张 16×16 灰度图存储仅需 256 字节——256 个整数。

2.2.3 声音 — 由采样点组成

声音是连续波形,要数字化必须采样。采样率(sampling rate)= 每秒采集多少个点。

  • CD 音质:44.1 kHz = 每秒 44 100 个数字
  • 电话语音:8 kHz = 每秒 8 000 个数字
  • 专业录音:96 kHz 甚至 192 kHz
互动 C:采样率对声音波形还原的影响

蓝色曲线是真实模拟波形(连续),红点是采样点,橙色虚线是用采样点重建出来的波形。 采样率越低,重建越失真("奈奎斯特定理"指出:采样率必须 ≥ 信号最高频率的 2 倍)。

2.3 生成式 vs 判别式

这是两种根本不同的建模思路。

判别式(Discriminative)

寻找一条决策边界,把样本分到对应类别。

$p(y\mid x)$ — 给我 $x$,告诉我标签 $y$

例:垃圾邮件分类、CT 图像诊断、隧道病害类型识别

生成式(Generative)

学习每个类别的内部结构,包含更多信息,可以用来生成新样本

$p(x,y)$ 或 $p(x\mid y)$ — 给我类别,造一个 $x$

例:写一首诗、画一张图、合成一段语音

互动 D:二维数据上的两种视角

同一份“猫/狗”二维特征点数据。切换视角:判别只画一条线;生成画两团云。

⚡ 关键洞察:生成模型携带的信息比判别更多——它知道每一类“长什么样”,可以反向“造”一个出来;判别只知道“两类的差在哪条线”。

2.4 四类典型生成算法 — 本课的主线

§3-4VAE

变分自编码器
概率化潜空间

§5GAN

生成器 vs 判别器
对抗博弈

§6Diffusion

扩散模型
加噪 → 去噪

§7-8Transformer

自注意力
序列建模之王

③ 自编码器(Autoencoder, AE)

自编码器是 1980 年代就已提出的“复古”网络,但它的思想奠定了几乎所有现代生成模型的基础。 它教会我们一件事:高维数据可以被压缩成低维"本质表示",再从中重建出来。

3.1 结构特点:胖—瘦—胖

自编码器是一个对称的神经网络,由三部分组成:

  • 编码器(Encoder):把输入 $x$ 压缩成低维向量 $z$(称为隐变量 / 潜空间表示
  • 瓶颈(Bottleneck):网络最窄的一层,强迫信息高度浓缩
  • 解码器(Decoder):从 $z$ 重建出 $\hat x$,期望尽可能接近 $x$

输入 $x$(高维)→ 编码 → 瓶颈 $z$(低维) → 解码 → 重建 $\hat x$(高维)

3.2 训练目标

训练数据不需要任何人工标签——输入自己就是标签。这是自监督学习最早的雏形之一。

$$\min_{\theta,\phi}\;\mathcal{L}(x,\hat x)=\|x-\mathrm{Dec}_\phi(\mathrm{Enc}_\theta(x))\|^2$$

“重建损失”约束模型:要想还原 $x$,瓶颈 $z$ 必须抓住 $x$ 中最关键的特征,丢弃冗余。

3.3 直观演示:瓶颈宽度的影响

互动 A:瓶颈宽度 → 重建质量

原图是一个 16×16 的“数字 5”。拖动滑块改变瓶颈维度 $|z|$。维度越小,丢失信息越多,重建越糊。

原图 $x$

瓶颈 z(部分值)

重建 $\hat x$

📊 重建 MSE: · 压缩率:×

3.4 思考:瓶颈的物理意义

💭 课堂思考题

当输入数据经过层层处理,通过相对狭窄的瓶颈,又能逆向扩增输出与输入一致时—— 瓶颈区的 $z$ 相比原始输入,具有怎样的特点

点击展开参考答案

$z$ 是输入数据的压缩表示——它保留了重建所必须的关键信息,丢弃了冗余。这意味着:

  • Encoder 可作特征提取器——把高维原始数据转成低维稠密的特征向量
  • Decoder 可作生成器——给它一个 $z$,就能“造”出对应的 $x$

这两个洞察分别奠定了“表示学习”和“生成模型”两大方向

3.5 把 Decoder 单独拿出来 — 能生成吗?

如果我们随便给训练好的 Decoder 送一个 $z$ 向量,会得到什么?

互动 B:随机 z → Decoder 输出

普通 AE 的潜空间没有“光滑性”或“完整性”约束。它只保证“训练样本对应的 $z$ 解码出原图”, 但其它 $z$ 落点是什么意义、能不能解码出合理图像,完全没保证

采样的 z(8 维)

Decoder 输出

观察规律:完全随机的 z → 多半是噪声 / 模糊。这就是为什么我们需要变分自编码器 VAE—— 它强制潜空间“规整”,让随便采一个 z 都能解码出像样的东西。

3.6 AE 的现实用途

数据压缩

用 z 替代原始数据存储,压缩率可达 100× 以上(如视频会议中的人脸压缩)。

异常检测

正常数据重建好,异常数据重建差。隧道衬砌图像的异常区域可由 AE 重建误差自动定位。

去噪 / 修复

Denoising AE:输入加噪图,目标输出干净图——网络学会“忽略噪声、抓住本质”。

④ 变分自编码器(VAE)

AE 已经能“重建”了,但还不能“生成”——因为潜空间太稀疏、太杂乱。 VAE 的关键改动只有一个:把 $z$ 从"一个点“变成”一个概率分布"。 就这一个改动,让潜空间变得平滑、可采样、可生成。

4.1 从 AE 到 VAE — 关键改动

AE · 点编码
$$x \;\overset{\text{Enc}}{\longrightarrow}\; z \quad \text{(确定的向量)}$$

每个 $x$ 编码到一个固定的点。训练样本之间的"空地"没有约束——任意 $z$ 解码不一定有意义。

VAE · 分布编码
$$x \;\overset{\text{Enc}}{\longrightarrow}\; (\mu,\sigma) \;\overset{\text{采样}}{\longrightarrow}\; z \sim \mathcal{N}(\mu,\sigma^2)$$

每个 $x$ 编码到一个正态分布。整个潜空间被"填满"——任意 $z$ 都能解码出合理图像。

4.2 直观演示:两种潜空间的差异

互动 A:点击潜空间任意位置 · 看 Decoder 输出

下方 2 维潜空间里散布着 5 个训练样本(数字 0、1、2、3、4)。 点击任意位置看 Decoder 输出。切换 AE / VAE 模式对比:

2D 潜空间(点击采样)

点击潜空间

📌 观察:VAE 模式下点击空白处仍能得到合理图像,不同数字之间平滑过渡; AE 模式下点击远离训练点的位置 → 输出多为噪声。

4.3 VAE 的训练目标

VAE 在 AE 的"重建损失"之外,加了一个 KL 散度约束:

$$\mathcal{L}_{\text{VAE}} \;=\; \underbrace{\mathbb{E}\,\|x-\hat{x}\|^2}_{\text{重建损失}} \;+\; \beta \cdot \underbrace{D_{\mathrm{KL}}\!\left(\, q(z\mid x)\,\big\|\,\mathcal{N}(0,I) \,\right)}_{\text{KL 散度}}$$
重建损失

“送回去要像原图”——和 AE 完全相同,保证学到有意义的信息。

KL 散度约束

"潜在分布 $q(z\mid x)$ 要靠近标准正态"——让潜空间"规整",整片空间都有意义。

$\beta$ 调节两者的权衡:$\beta$ 大 → 潜空间更规整、但重建变模糊;$\beta$ 小 → 重建清晰、但潜空间稀疏。这就是 $\beta$-VAE 的来源。

4.4 重参数化技巧

问题:要训练 VAE,必须能让梯度从 $z$ 流回 $\mu,\sigma$。但"从 $\mathcal{N}(\mu,\sigma^2)$ 采样"这个操作不可微——梯度无法穿过随机采样这一步。

解决:把随机性外部化——

$$z = \mu + \sigma\odot \epsilon,\quad \epsilon\sim\mathcal{N}(0,I)$$

$\mu,\sigma$ 是网络可微输出,$\epsilon$ 是外部噪声常量。梯度顺利穿过 $\mu,\sigma$;$\epsilon$ 不需要梯度。

🔑 一个绝妙的小技巧

重参数化解决了“随机性破坏可微性”这个深度学习中常见的难题。除了 VAE, 它在 策略梯度(强化学习)流模型(normalizing flow)差分隐私 等领域都有重要应用。

4.5 VAE 潜变量的“可解释性”

当 VAE 训练得当,潜在维度可能对应人类可解释的语义维度——这是经典的"解耦表示"现象。

互动 B:人脸生成 · 拖动滑块控制 4 个语义维度

下方 SVG 模拟一个在人脸数据集上训练好的 VAE。4 个潜在维度被发现分别对应 微笑、男性化、肤色、胡须。 拖动滑块,看人脸如何连续变化——这种连续过渡是 VAE 平滑潜空间的标志。

4.6 VAE 的优缺点

优点缺点
训练稳定,目标明确
潜空间平滑可插值
可生成无限多新样本
有概率解释,便于扩展
生成图像偏模糊(重建 MSE 倾向“求平均”)
难以生成细节丰富的高分辨率图像
模式覆盖不够全

⚡ 这些缺点正是 GAN 和扩散模型试图解决的——后两者都更擅长生成清晰、有细节的图像。

⑤ 生成对抗网络(GAN)

2014 年,Ian Goodfellow 在一次酒吧讨论后回到家,用一晚上完成了第一份代码——这就是 GAN。 它彻底改变了生成式 AI 的格局,启发了 StyleGAN、Pix2Pix、CycleGAN 等一系列里程碑工作。

5.1 直觉:警察与造假者的博弈

想象一个造假者(Generator, G)和一位警察(Discriminator, D):

  • G 不断造假币,目标是让 D 分不清真假
  • D 不断学习鉴别,目标是揪出所有假币

两个网络对抗博弈,最终 G 造出的假币与真币分布一致——D 再也分不出来。

5.2 GAN 网络结构

噪声 z ∼ N(0,I) Generator G 生成器 假图 G(z) 真图 x Discriminator D 判别器 真 / 假 0 ~ 1 G 希望骗过 D;D 希望识破 G — 二者交替更新

5.3 训练目标(数学)

GAN 是一个极小极大博弈

$$\min_G \max_D\;\mathbb{E}_{x\sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z)))]$$
判别器 D 想要

$D(x) \to 1$(真图打 1)
$D(G(z)) \to 0$(假图打 0)

生成器 G 想要

$D(G(z)) \to 1$(让假图也被 D 打 1)

从信息论看,G 在最小化"生成分布与真实分布之间的 JS 散度"。当二者完全一致时,D 只能猜(输出恒为 0.5)。

5.4 GAN 训练过程动画

互动 A:实时看 G 与 D 的博弈

蓝点是真实数据分布(两团),绿点是 G 当前生成的数据。背景的红蓝色显示 D 在每个位置打的“真假”概率。 点击“训练一步”看 G 如何逐步学到真实分布。

步数 = 0 · G loss = — · D loss = —

⚪ 真实数据 ⚫ 生成数据 — 训练目标:让绿点的分布完全盖住蓝点

5.5 GAN 训练的三大挑战

挑战 1模式崩溃(Mode Collapse)

G 只生成几种样本骗过 D,分布覆盖不全。如:一个数字识别 GAN 可能只生成 1 和 7。

挑战 2训练不稳定

两个网络力量需平衡。D 太强 → G 学不动;D 太弱 → 学不到东西。Loss 经常震荡。

挑战 3梯度消失

D 太强时 $\log(1-D(G(z)))$ 接近 0,G 没有可用梯度。常用 trick:把目标改为 $-\log D(G(z))$。

5.6 GAN 家族

名称核心创新典型应用
DCGAN (2015)把全连接换成卷积图像生成基础架构
cGAN条件输入(类别 / 文本)按指令生成
Pix2Pix / CycleGAN图像翻译素描 → 实物 / 风格迁移
WGAN / WGAN-GPWasserstein 距离替代 JS稳定训练
StyleGAN (2018)风格 / 内容解耦照片级人脸合成
BigGAN (2019)大批量类条件生成ImageNet 类样本合成

⑥ 扩散模型(Diffusion Model)

扩散模型在 2020 年前后异军突起,迅速在细粒度图像生成中超越 GAN,成为 Stable Diffusion、DALL·E、Sora 的底层算法。 它的核心思想很反直觉:先把图弄坏,再学着把它“修”回来

6.1 灵感:气体扩散

🧪 物理直觉

想象在一杯清水里滴一滴墨水。墨水会逐渐扩散,最终整杯水变成均匀的灰色。 如果我们能把这个过程反过来——从灰色水中“还原”出最初那滴墨水—— 我们就掌握了一种从噪声中生成有结构数据的能力。

6.2 前向过程(加噪)

给一张干净图像 $x_0$,分 $T$ 步逐渐加高斯噪声:

$$\begin{aligned} x_t \;&=\; \sqrt{1-\beta_t}\;\, x_{t-1} \;+\; \sqrt{\beta_t}\;\, \epsilon_t \\[4pt] \epsilon_t \;&\sim\; \mathcal{N}(0,\,I) \end{aligned}$$

$\beta_t$ 是事先定好的“噪声调度”,$T$ 通常取 1000。当 $T$ 充分大时,$x_T$ 几乎是纯高斯噪声 $\mathcal{N}(0,I)$。 这一步无需训练——纯加噪。

互动 A:前向加噪过程(拖动时间步看变化)

从干净的“建筑”图像逐步加噪,到 t=100 时几乎全是噪声。

6.3 反向过程(去噪)

关键想法:训练一个网络 $\epsilon_\theta(x_t,t)$,从含噪 $x_t$ 中预测出加进去的噪声 $\epsilon$。 既然能预测出加了什么,自然可以减去它,得到 $x_{t-1}$。

训练目标极其简洁:

$$\mathcal{L} = \mathbb{E}_{x_0,\epsilon,t}\,\big[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\big]$$

训练时随机采样 $t$ 与 $\epsilon$,让网络学习“在第 $t$ 步,加了什么样的噪声”。

互动 B:反向去噪 · 从纯噪声生成图像

点击“去噪一步”看每一步如何把噪声向清晰图像推一点。这是一个 Markov 链: $x_T \to x_{T-1} \to \cdots \to x_0$。

t = 100

6.4 扩散模型 vs GAN — 优劣对比

维度GANDiffusion
样本质量高(StyleGAN 已可达照片级)更高(细粒度图像 SOTA)
分布覆盖容易模式崩溃覆盖全
训练稳定性不稳定稳定
推理速度单步,快需 $T$ 步迭代,慢
条件控制较难容易(classifier-free guidance)
代表作StyleGAN、BigGANStable Diffusion、DALL·E 2/3、Sora

6.5 Diffusion Transformer (DiT)

2022 年提出的 DiT去噪网络的主干从 U-Net 换成 Transformer, 迅速成为 Sora 2 / Veo 3 / Stable Diffusion 3 等顶级模型的底层架构。 它能高效捕获数据中的长距离依赖,扩展性更好。

文字提示词
Patch 化 $x_T$
Transformer 去噪 × T
$x_0$ 图像 / 视频

6.6 视频生成新时代(2025–2026)

2025 年 9 月 30 日,OpenAI 发布 Sora 2,标志着 AI 视频生成进入"有声 4 K"时代—— 模型一次性输出视频 + 同步对白 + 环境音 + 音效,全部由模型自己生成

同期 Google 发布 Veo 3 / 3.1,主打 4 K + 影院级镜头语言;快手发布 Kling 3.0, 国内字节 Seedance 2.0、RunwayML Gen-4.5 等都达到了商用级别。

模型厂商核心特色
Sora 2OpenAI有声合成、长 prompt 一致性(注:Sora 应用 2026-04 下线,API 9 月停止)
Veo 3.1Google4 K、影院级镜头、同步音轨
Kling 3.0快手视觉保真度最高,中文 prompt 友好
Seedance 2.0字节跳动多镜头叙事、专业级运动
SVD 2 (Stable Video Diffusion)Stability AI开源、可本地部署、可微调

⚡ 这意味着:影视、广告、游戏行业的工作流,正在经历结构性重塑。一个人 + 一个 GPU,就可以做过去需要几十人团队才能做的内容。

6.7 扩散模型的几个直觉问答

❓ 为什么扩散比 GAN 容易训练?

GAN 是两个网络博弈——目标不收敛,需要小心平衡。 扩散是一个网络做监督学习——目标就是预测一个已知噪声 $\epsilon$,标准的 MSE 损失。 监督学习永远比博弈学习稳定。

❓ 为什么扩散生成图比 GAN 慢?

GAN 一次前向就得到结果。扩散要做 $T$ 次(典型 50—1000 次)前向才能从纯噪声“修”出清晰图像。 所以加速扩散采样(如 DDIMLCMConsistency Model)是当前研究热点。

⑦ Transformer 与自注意力

2017 年 6 月,Google 团队发表了一篇仅 9 页的论文 —— 《Attention Is All You Need》。 被引超过 14 万次,掀起了自然语言处理乃至整个 AI 领域的革命。 今天所有大模型(GPT、Claude、LLaMA)的底层都是它。

7.1 一篇引发革命的论文

Transformer 抛弃了 RNN/LSTM 那种“逐字处理”的循环结构,带来了两大改变:

  • 纯并行化处理长序列 — 训练效率大幅提升
  • 核心机制是 self-attention(自注意力) — 每个 Token 都能“看见”序列中所有其他 Token
  • 架构通用 — 文本、图像(ViT)、音频(Whisper)、视频(Sora)都用同一套

7.2 Transformer 处理数据的流程

原始输入
Tokenization
Input Embedding
Self-Attention × N
Feed-Forward
Output
阶段作用
Tokenization把文字切成 Token,把图像切成 Patch(小块)
Embedding把每个 Token 映射成高维向量(“理解”它的含义)
Self-Attention每个 Token 看向其他 Token,决定“该听谁”
FFN对每个 Token 单独做一次非线性变换

7.3 自注意力的核心:Q、K、V

每个 Token 通过三个矩阵被投影成三个向量:

Query (Q)

我想找什么样的信息?

Key (K)

我是什么样的内容(能被检索的关键)?

Value (V)

我的实际内容是什么?

注意力打分公式:

$$\text{Attention}(Q,K,V)=\text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right)V$$

直观:用 $Q$ 与所有 $K$ 算相似度(点积),softmax 后得到注意力权重,加权求和所有 $V$。

7.4 可视化:Self-Attention 在做什么

互动 A:经典例句 — The animal didn't cross the street because it was too tired

这里的 it 是指 "animal" 还是 "street"?人类一眼就懂——它指 animal,因为 "tired" 更适合动物。 点击左侧任意 Token,看模型学到的注意力权重(线越粗 = 权重越大)。

📌 重点观察:点击 it,会发现它极强地指向 animal,而不是 street—— 这就是 Transformer 自己从大量文本中学到的“指代解析”,无需任何语法规则。

7.5 自回归生成 — 一个 Token 一个 Token 地吐

GPT 系列采用 Autoregressive Generation

  1. 给定前 $n$ 个 Token,模型输出第 $n+1$ 个 Token 的概率分布
  2. 采样或贪心选一个 Token
  3. 把它追加到输入末尾,回到第 1 步

所以聊天界面里"字一个个蹦出来"的体验,正是这种逐 Token 生成的真实过程。

互动 B:自回归生成演示

点击“生成下一个 Token”——每次只多吐一个词。注意:每个新 Token 都依赖之前所有 Token。

7.6 三类 Transformer 架构

Encoder-only(BERT)

双向理解,适合分类、抽取、问答等理解类任务。每个 Token 看全部上下文。

Decoder-only(GPT)

单向自回归生成,适合写作、对话、代码等生成类任务。每个 Token 只看左边的。

Encoder-Decoder(T5、Bart)

编码理解 + 解码生成,适合翻译、摘要等“输入→输出”任务。

📝 一句话总结

"Attention is all you need" 这个标题已成为预言:今天几乎所有突破性 AI 模型—— GPT、Claude、Gemini、Stable Diffusion、Sora——核心都是某种形式的 Transformer + Attention。

⑧ 大模型的训练

什么叫“大”?参数规模通常以 B(Billion 十亿)为单位。 “大到一定程度,量变会引起质变” —— 这就是 Scaling Law。 而把一个 GPT 训练成 ChatGPT,需要经历严格的三个阶段。

8.1 什么叫“大”?

“大”的 AI 模型 — 模型参数量常以 B 为单位表示。例如 8B 就表示 80 亿参数。

模型参数量发布典型用途
GPT-21.5 B2019开源生成
GPT-3175 B2020首个大规模通用 LLM
LLaMA-27 B / 13 B / 70 B2023开源 LLM 标杆
GPT-4~ 1.8 T(推测,MoE)2023商用旗舰
DeepSeek-V3671 B(MoE,激活 37 B)2024 末开源 MoE 旗舰
DeepSeek-R1671 B(MoE)2025-01首个开源推理模型 · 媲美 o1
Qwen30.6 / 1.7 / 4 / 8 / 14 / 32 / 235 B2025混合推理(可切换思考模式)
GPT-5 / 5.5未公开(多模态原生)2025–2026OpenAI 旗舰
Claude Opus 4.7未公开(1 M token 上下文2026编程 SOTA · SWE-bench Pro 64.3 %
Gemini 3.1 Pro未公开2026多模态 · GPQA Diamond 94.3 %
DeepSeek-V4大幅扩容,超长上下文2026-04Agentic 工作流优化

💾 内存粗算:8 B 参数 · fp16 存储(每参数 2 字节)→ 仅参数就占 16 GB 显存。
🚀 2026 趋势:参数不再是单一衡量标尺——架构(MoE)、上下文长度(1 M token)、推理能力(链式思考)成为新的差异化维度。

8.2 Scaling Law — 量变引起质变

OpenAI 与 DeepMind 通过大量实验发现:在训练方法得当的前提下,持续增加:

  • 模型规模 $N$(参数量)
  • 数据量 $D$(token 数)
  • 计算资源 $C$(用 PF-days 衡量)

模型测试误差持续下降,且呈幂律

$$L(N)\approx\!\left(\frac{N_c}{N}\right)^{\!\alpha_N},\quad L(D)\approx\!\left(\frac{D_c}{D}\right)^{\!\alpha_D},\quad L(C)\approx\!\left(\frac{C_c}{C}\right)^{\!\alpha_C}$$

PF-days = 一台机器以 1 PFLOPS(每秒 10¹⁵ 次浮点运算)跑一天 = 8.64 × 10¹⁹ FLOPs。

互动 A:Scaling Law 曲线

拖动滑块改变 模型规模 / 数据量 / 算力,看预测损失。注意 X 轴是对数

三条曲线分别展示损失随规模、数据、算力的下降;红点是当前位置。

8.3 三阶段训练流程

训练一个 ChatGPT,需要经历三个连贯的阶段:

阶段一 · Self-Supervised Learning(自监督预训练)

目标:从海量无标注文本(互联网级别,数百 B token)中学习语言知识。

  • Next Token Prediction(GPT 主流):给定前 N 个 Token,预测第 N+1 个
  • Masked Language Modeling(BERT 主流):遮掉句中部分 Token,让模型猜
输入: “今天晚上去 ___”
模型输出概率分布: 上课(0.32), 吃饭(0.21), 看电影(0.15), 健身房(0.08), ...

此阶段最贵——GPT-3 一次预训练成本约 460 万美元。模型只会“补全句子”,不会按指令做事

阶段二 · Instruction Tuning(指令微调 / SFT)

目标:教模型听懂“指令”并按“答案格式”回答。

把"指令 + 答案"格式的数据喂给模型。数据量从数千到数十万条不等:

指令: “把下面这句话翻译成英文 — '今天天气真好'”
答案: "The weather is really nice today."

原来模型只会“补全句子”,现在它学会了"听人话、照指令做事“,像是”教 AI 写作业"。 GPT 能和我们对话、帮忙答题——靠的就是这一步。

阶段三 · RLHF(人类反馈强化学习)

目标:让模型回答更符合人类偏好(更安全、更礼貌、更准确、更有用)。

流程:

  1. 让模型对同一问题生成多个回答
  2. 人类标注员给这些回答排序(哪个更好)
  3. 训练一个 奖励模型(Reward Model),预测人类偏好分数
  4. 用强化学习(PPO 算法)让大模型最大化奖励分数
🔑 RLHF 的真正难点

第一阶段预训练模型的可靠度至关重要——只有起点足够好,后续微调才有意义。 然而,在 ChatGPT 之前,从未有一个足够可靠的预训练大模型公开可用。这就是 OpenAI 的护城河。

互动 B:训练阶段动画

点击各阶段,看模型从“补全句子的工具”到“对话助手”的演化。

8.4 推理模型:第二种训练范式(2024 年底以来的新形态)

从 2024 年底起,AI 出现了一类全新的模型形态——推理模型(Reasoning Model)。 OpenAI 的 o1 / o3、DeepSeek 的 R1、Anthropic 的 Claude Opus 4.7 Thinking、Google 的 Gemini Thinking……都属于这一类。

· 推理模型与普通 LLM 的核心区别

普通 LLM(如 GPT-4)推理模型(如 DeepSeek R1)
训练目标预测下一个 Token给出正确的最终答案,过程可以试错
关键技术SFT + RLHFRLVR(可验证奖励的强化学习)
推理风格直接给答案长链式思考(数千 Token 内部 monologue)
擅长场景对话、写作、翻译数学、代码、逻辑推理
速度成本慢 5–50 ×,因为要"想很久"

· RLVR — 没有 SFT 也能训练

更激进的是,DeepSeek R1-Zero 完全跳过了 SFT 阶段,直接对预训练模型做大规模强化学习—— 只要答案能被自动验证(数学题的对错、代码能否通过单元测试),就给奖励:

$$\text{Reward} = \begin{cases} +1, & \text{答案正确 / 代码通过测试} \\ -1, & \text{否则} \end{cases}$$

令人惊讶的是:模型自己学会了"反思 (reflect)"和"换一种方法 (let me try)"等高级推理行为—— 无需人类示范,纯粹从强化学习中涌现。这是 2025 年 AI 研究最重要的发现之一。

📚 DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL, arXiv:2501.12948 · Nature 2025

8.5 混合推理模型(Hybrid Reasoning)

2025 年下半年开始,Qwen3Claude Opus 4.7Gemini 3.1 等模型支持一键切换"思考模式"——

  • 普通模式:快速回答 ☞ 适合闲聊、简单任务
  • 思考模式:长链思考 ☞ 适合编程、数学、复杂分析

这意味着"一个模型两种性格"——用户根据问题难度自由选择,平衡速度与精度。

💡 2026 的实践共识

"简单问题用闪电模式,难题用慢思考"——已经成为程序员、研究者使用大模型的默认习惯。 Cursor / Claude Code / Cline 等 AI 编程工具都默认提供"思考"开关。

8.6 LLaMA 与"开源模型崛起"

2023 年 Meta 开源 LLaMA(Large Language Model Meta AI);2024 年 LLaMA-3;2025 年 LLaMA-4。 它催生了整个 LLaMA 家族:Alpaca、Vicuna、WizardLM、Code LLaMA……

"站在巨人肩膀上微调"成为 LLM 开发主流路径——学校实验室、初创公司都能玩 LLM 了。

2024–2025 的另一里程碑:中国开源模型崛起QwenDeepSeekGLMBaichuan 在国际排行榜上多次登顶;尤其 DeepSeek R1 的开源被国际媒体称作"中国版 ChatGPT 时刻"。

📚 综述:A Survey of Large Language Models, arXiv:2303.18223(社区持续更新)

8.7 大模型 vs 小模型 — 何时用哪个?

维度大模型小模型
结构多个简单单元堆叠 → B 级参数几层、几十 ~ 几千参数
数据互联网级(文本、图像、视频)团队自采的领域数据
训练自监督 + RLHF,体系复杂有监督为主,简单
成本数千万至亿元万元级
适用场景通用、多任务、生成式专用、单任务、控制类(要求可重现、可靠)

所以在结构控制、安全关键系统、实时嵌入式等场景,小模型仍然是首选。不是越大越好

⑨ GPU 与算力

训练大模型这件事,没有显卡几乎做不到。本节解释:什么是 GPU?它和 CPU 有什么本质区别? 显存为什么这么重要?训练一个 7B / 70B 模型究竟需要多大算力?

9.1 GPU 是什么

显卡(Graphics Processing Unit, GPU)是计算机硬件中的核心组件之一, 最初专门用于处理图形和图像数据。包括:

  • GPU 核心:执行图形与计算任务的主要处理单元(数千~万级核心)
  • 显存(VRAM):用于存储图形数据与运行时临时变量
  • 输出接口:HDMI、DisplayPort 等
  • 散热系统:风扇 + 散热器(高负载下保证稳定)

9.2 为什么 AI 训练要用 GPU?

💡 一个生动的比喻

训练大语言模型,就像在做一道巨型数学题

  • 一题有上亿个未知数(模型参数)
  • 每次还要反复迭代几百万次
  • 核心计算是海量的矩阵乘法

显卡就是这位“数学高手”。它喜欢做海量矩阵乘法,因此并行能力极强; 而 CPU 只有相对少量并行能力——擅长串行复杂逻辑,不擅长重复计算。

9.3 GPU vs CPU — 架构对比

CPU · 串行处理高手

Core Core 少量强大的核心
  • 核心少(4 ~ 64 个)
  • 每个核心强大,擅长复杂控制流
  • 适合:操作系统、数据库、串行逻辑

GPU · 并行计算狂魔

数千个小核心(CUDA Core)
  • 核心多(数千 ~ 万级)
  • 每个核心相对简单,擅长重复计算
  • 适合:矩阵运算、图形渲染、深度学习
互动 A:CPU vs GPU 矩阵乘法竞速

同样的 1024×1024 矩阵乘法。CPU 串行做,GPU 并行做——谁先完成?

CPU
— ms
GPU
— ms

点击 ▶ 开始竞速

9.4 显存(VRAM)—— GPU 的“工作台”

显存就是 GPU 自带的"工作台 + 黑板 + 储物柜",存:

  • 模型参数(fp16 → 每参数 2 字节)
  • 训练数据中间结果(forward 激活值)
  • 梯度(backward 时算出来的)
  • 优化器状态(Adam 的 m、v,fp32 → 每参数 4 字节)

显存越大,能塞下的模型越大。

互动 B:训练一个 LLM 需要多大显存?

拖动模型规模,看显存需求估算(假设 fp16 训练 + Adam 优化器 + 中等 batch)。

模型参数 (fp16)14 GB
梯度 (fp16)14 GB
优化器状态 (Adam, fp32)28 GB
激活值(约)~ 7 GB
总计63 GB
推荐硬件→ 单卡 A100 80 GB 勉强够

9.5 专用硬件优化

Tensor Cores

NVIDIA 专为深度学习设计的张量核心,矩阵乘法吞吐量是普通 CUDA 核的数倍。从 V100 (1st gen) 到 H100 (4th gen) 不断升级。

高带宽内存 (HBM)

A100/H100 的显存带宽达 1 ~ 3 TB/s,是普通 DDR5 内存的 30 ~ 100 倍。“数据搬运”快比“计算”还重要。

NVLink / 多卡互联

单卡装不下时多卡接力。NVLink 让 GPU 间带宽达 900 GB/s,远超 PCIe 总线。GPT-4 训练用了约 25 000 张 A100。

9.6 国产替代与开源生态

除了 NVIDIA,国内外都有 AI 加速硬件:

华为 · 昇腾 Ascend 寒武纪 · 思元 百度 · 昆仑芯 AMD · MI300X Google · TPU Apple · M 系列 Neural Engine

编程框架:PyTorch + CUDA 仍是事实标准; JAXDeepSpeedvLLM 等是分布式训练 / 推理的明星框架。

⑩ 提示词工程

既然大模型已经训练好了,怎么“问”它就成了核心技能。 “你给它什么 prompt,它就给你什么回答” —— 这门艺术叫 Prompt Engineering(提示词工程)。 本节给出从直觉到 best practice 的全套方法。

10.1 什么是 Prompt

提示词(Prompt)是一段引导性文本或语音输入, 用于引导大模型系统输出特定信息或执行特定任务

提示词工程(Prompt Engineering)则是通过反复的人机交互与提示优化, 发掘大模型能力、并最终获得预期输出。

🎯 最理想的人机交互是什么?

就是 AI 能像一个人一样,人类能以自然的方式与之交互——而不需要学习什么“命令格式”、“键盘快捷键”、“专业术语”。 这就是 Prompt 与传统编程的本质区别。

10.2 Prompt 的本质:激活模型潜力

把大模型当作一个百科全书。提示词可以理解为查询条件或查询诉求—— 但输出并非简单列表,而是经过模型生成能力的再加工

站在信息论角度看:提示词最好接近 Encoder-Decoder 架构中“瓶颈处的隐变量”—— 这样能最大程度地决定输出内容。

10.3 同样的问题,不同的 Prompt

互动 A:三种 Prompt 风格对比

点击三种 Prompt,看模型对同一问题的不同回答。

Prompt:
Output:

10.4 几个经典提示词技巧

技巧 1Let's think step by step

加这一句让模型“一步一步想”,对需要逻辑推理的问题准确率显著提升(Chain-of-Thought)。 📚 Kojima et al., 2022, NeurIPS

技巧 2角色扮演

“你是一位资深结构工程师……” — 让模型进入特定角色,输出更专业、术语更准确。

技巧 3情绪激励 / “勒索”

“这对我职业生涯非常重要” — 实验发现能小幅提升回答质量(EmotionPrompt)。 📚 Li et al., 2023

技巧 4Few-shot 示例

给 2 ~ 5 个“问—答”示例,模型会模仿格式,称为 In-context Learning。 无需训练,立刻学会新任务。

10.5 上下文学习(In-Context Learning)

无需训练,仅通过 Prompt 里的示例,让模型当场学会新任务:

输入: 高兴 → 开心 输入: 难过 → 伤心 输入: 生气 → ??? 输出: 愤怒 ✓

模型从前两条例子推断出“输入 → 同义词替换”的任务,无需重训。这是 GPT-3 论文的关键发现之一。

10.6 任务拆解(Task Decomposition)

复杂任务一次问模型 → 容易出错;拆解后逐步问 → 准确率显著提升。

互动 B:拆解任务范例 — 写隧道病害检测报告
❌ 一次性 Prompt
请写一份完整的隧道病害检测报告。

→ 容易遗漏关键章节、结构混乱、深度不一致

✓ 分步 Prompt
① 列出报告应包含哪些章节 ② 针对“病害类型”,列举常见 5 类 ③ 针对每一类,描述检测方法 ④ 整合成最终报告

→ 每步可校验、可修改、可控

10.7 工具使用(Tool Use)

大模型也有不擅长的事 — 比如精确数字计算。 “3.11 和 3.9 哪个大?” 早期 GPT 会答错。

解决:让模型调用工具——

  • 计算器 / Python 解释器 — 处理数值(GPT 现在内置)
  • 搜索引擎 — 获取实时信息(GPT 已可联网)
  • 专业 API — 调用专门数据库或服务

人类也没有尖牙利爪,但发明了各种工具对抗猛兽 — AI 也一样。这就是"Agent"(智能体)的雏形。

10.8 大模型作为搜索引擎

此前,大模型更多是“某一时间点之前知识的提取器”。 现在 GPT 已经可以联网搜索,作为"搜索引擎 + 总结器"使用:

问题
网络/资料库
搜索结果
语言模型 (总结)
专业回答

这就是 RAG(Retrieval-Augmented Generation, 检索增强生成) 的基本范式, 也是当前企业落地 LLM 最主流的方式之一。

⑪ 生成式 AI 的挑战与思考

技术总有两面性。生成式 AI 给我们带来巨大便利的同时,也带来了幻觉、隐私、对齐、创作归属等深刻挑战。 本节梳理这些“绕不开的问题”,并以一个开放讨论收尾。

12.1 大模型幻觉(Hallucination)

幻觉,俗称"一本正经地胡说八道":模型自信地给出看似合理但事实错误的回答。

幻觉在教育、工业、医学、科研、数学、法律这些对可靠性、可信度要求较高的领域应用时, 就会让人担忧其表现。更糟糕的是,模型还会跟随提问者的立场快速"改变事实"

📰 2025–2026 真实案例
  • 美国律师引用 ChatGPT 编造判例——多起案件中律师向法庭提交了 AI 生成的虚构判例,被法官重罚(Mata v. Avianca 已成经典)。
  • 2025 年医保拒赔诉讼——Cigna、Humana、UnitedHealth 等保险公司被诉,称其 AI 平均 1.2 秒就拒掉一份医保索赔,2 个月共拒绝 30 万 + 件,许多基于"幻觉式判断"。
  • AI 检测学生作弊——某些"AI 内容检测器"产生大量假阳性,导致学生被错误指控抄袭。
互动 A:识别幻觉 — 下面这些声明哪些是真的?

点击每条声明判断“真 / 假(幻觉)”,看答案与解释。

12.2 隐私问题

训练数据隐私
  • 数据来源广泛 — 训练时通常使用大量来自互联网的文本(个人博客、社交媒体、新闻)。这些数据可能包含大量个人敏感信息
  • 缺乏充分的知情同意 — 数据收集没有得到所有者明确同意
  • 数据安全风险 — 存储数据的服务器可能成为黑客目标
用户使用隐私
  • 使用大模型时输入的隐私信息,可能被反向工程从模型中提取
  • 用户输入的内容可能被用于后续训练
  • 真实案例:2017 年 Equifax 1.47 亿用户信息泄露——LLM 数据集泄露后果更甚

12.3 与人类价值观的对齐(Alignment)

大模型的“对齐”,是当前学术界和产业界最重要的研究方向之一:

价值观多样性

不同地域和文化有不同价值观——东方集体主义 vs 西方个人主义。模型很难同时满足。

数据偏差

互联网数据本身有偏见。模型在学习中放大这些偏差。

缺乏内在判断

基于概率统计生成,无法像人类一样基于情感、道德直觉来判断。

动态适应挑战

人类价值观是动态变化的——例如对性别平等的观念在持续演进。模型更新滞后。

12.4 图灵测试 — 机器能“骗过”人类吗?

1950 年,Alan Turing 在《Computing Machinery and Intelligence》提出: 测试者通过文本与“对方”对话;如果 ≥ 30% 的测试者无法分辨对方是人还是机器, 则该机器通过测试,被认为具备“人类智能”。

2014 年 6 月,聊天程序 "尤金·古斯特曼“ 在英国皇家学会”图灵测试“大会上首次”通过"。

“机器假装自己是人” — 这是 Turing 当年的设想。今天,ChatGPT 已经能在大多数日常对话中难以分辨。

互动 B:迷你图灵测试

下面 4 段文字,2 段是人写的,2 段是 AI 生成的。你能分辨吗?

12.5 AI 创作 — 有没有“灵魂”?

基于上述技术,AI 已能写诗、作画、谱曲、写小说。问题来了:

❓ 课堂讨论

“AI 的生成品没有灵魂,不是真正的艺术创作”—— 你的观点呢?艺术的“灵魂”究竟在哪里?

互动 C:你怎么看?

朱老师的观点

AI 作品当然可以是"真正的艺术";关键在于你如何使用它、呈现它,并与观众对话。 就像画家选择油画或水彩一样——创作者选择"大模型 + 显卡 + Prompt"也只是一种媒介决策

灵魂来自你的动机、筛选、编辑、展示与自我表达,而非工具本身。

灵魂不是“模型有没有”,而是“人如何赋予”。

12.6 给学习者的建议

把它当作"放大器"——它能让你的产出效率 10× 提升,前提是你已经知道方向

永远保持质疑——尤其是它的输出看似“专业”时。交叉验证,独立判断。

底层原理远比 Prompt 技巧重要。理解它的能力边界——你才能用得好。

⑫ 课后小测

共 15 题,覆盖 4 课时核心内容。完成后查看得分与解析。

🎓 恭喜你完成了 4 课时的生成模型与大模型学习!

本课带你走过:

  • 从 Token / 像素 / 采样点出发,理解所有生成的本质
  • 四类生成算法:AE → VAE → GAN → 扩散模型
  • 颠覆性的 Transformer 与自注意力
  • 大模型训练的三阶段:自监督 → SFT → RLHF
  • 支撑大模型的 GPU 与算力体系
  • 提示词工程与 In-context Learning
  • 幻觉、隐私、对齐、创作等深层挑战

下一步建议:

  • 动手实践:在 Hugging Face / ModelScope 上跑通一个开源 LLM(如 Qwen3-0.6B)的推理;试用 Ollama 在本地跑 DeepSeek-R1 蒸馏版
  • 读经典论文:Transformer(Vaswani 2017)、GPT-3(Brown 2020)、DDPM(Ho 2020)、InstructGPT(Ouyang 2022)、DeepSeek-R1(2025 · Nature)DiT(Peebles 2023)
  • 使用前沿工具:Cursor / Claude Code / Cline 等 AI 编程工具,在实际项目里体会 prompt engineering 与"思考模式"
  • 关注前沿:lmarena.ai · llm-stats.com · arxiv-sanity(追踪 SOTA)