决策树与集成学习

00

课程概览

本章为什么重要？四大主题的学习路线

线性模型的局限与突破

🔴 线性模型的瓶颈

线性模型只能画一条直线来分割数据。真实世界的关系往往是非线性的——比如混凝土强度与水灰比、养护时间的关系，无法用一条直线准确描述。

🌳 决策树的思路

决策树不画直线，而是提问“水灰比 < 0.5吗？”“养护时间 ≥ 14天吗？”——用一系列是/否的问题，将特征空间切割成矩形区域，从而处理非线性问题。

💡 类比：就像医生诊断病情——不是算一个公式，而是逐步追问症状，最终得出判断。

本章学习路线

01

决策树基础核心

树结构（根节点/内部节点/叶节点）、二叉树数学本质（特征空间递归分割）、分裂准则（基尼指数/信息熵）

02

集成学习思想原理

为什么多个弱学习器能组合成强学习器？概率论证明：5个60%准确率的模型投票 → 68%

03

装袋法（Bagging）并行

有放回抽样生成多个训练子集 → 独立训练多个基模型 → 投票/平均 → 袋外误差（OOB）无偏估计

04

随机森林稳定

装袋法 + 每次只随机选 m 个特征 → 降低树间相关性 → 变量重要性度量

05

提升法（Boosting）串行

顺序训练，专注难例，权重自适应调整 → AdaBoost → GBM → XGBoost

偏差-方差权衡（Bias-Variance Tradeoff）

理解集成学习为什么有效的核心理论基础——模型误差可以分解为偏差、方差和不可约噪声三部分：

$$\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Noise}$$

🎯

偏差（Bias）—— 欠拟合

模型过于简单，无法捕捉数据的真实规律。就像用一条直线去拟合抛物线数据，系统性地偏离真实值。偏差高的模型在训练集和测试集上表现都差。

🎲

方差（Variance）—— 过拟合

模型过于复杂，对训练数据中的噪声也进行了学习。换一组训练数据，模型结果就会大幅波动。方差高的模型训练集表现好，测试集表现差。

🏗️ 土木工程类比：假设要预测混凝土强度——偏差就像你只用“水灰比”一个变量来预测，公式太简单，无论怎么调参数都抓不住真实规律，预测结果系统性地偏离真实值。方差就像你用了一个极其复杂的公式，换一批试块数据，预测结果就大幅波动。好的模型既要抓住规律（低偏差），又要经得起数据变化（低方差）。

简单模型（高偏差）

如：浅决策树（深度=1）
欠拟合，规律捕捉不足
Bagging 无法修复

复杂模型（高方差）

如：深决策树（无限制）
过拟合，对噪声敏感
Bagging 可以改善

集成模型（平衡）

如：随机森林、XGBoost
多个模型取长补短
偏差方差兼顾

⚡ 关键洞察：Bagging（装袋法）主要降低方差——多个不稳定模型取平均后更稳定；Boosting（提升法）主要降低偏差——逐步修正错误，让模型越来越准。这就是两大集成策略的根本区别！

01

决策树

通过提问来分类——来走一遍土木工程场景的决策树！

🎮 互动演示：今天能开工吗？（点击“是”或“否”走完决策树）

从根节点开始，点击下方按钮逐步走完决策树…

当前问题

地基承载力是否合格？

决策树的三类节点

🌱

根节点

整棵树的起点，包含全部数据，第一个提问的节点

🔀

内部节点

中间的判断问题，代表某个特征上的条件，可以继续分裂

🍃

叶节点

树的末端，不再分裂，直接给出最终预测结果

二叉树的数学本质：特征空间的递归分割

决策树本质上是将特征空间切成越来越小的矩形区域，每次沿坐标轴平行方向切割：

🎮 互动演示：混凝土强度特征空间分割（水灰比 vs 养护天数）

● 绿色 = 抗压强度达标（≥C30） ● 红色 = 不达标 —— 点击按钮逐步添加分割线，看决策树如何“切”出答案：

Gini = 0.50（未分割）

✓ 优点

直观可解释，规则可以用自然语言描述

无需对数据做假设，能处理非线性关系

能处理部分缺失数据，训练速度快

✗ 缺点

容易过拟合（树太深时把训练数据“背”下来）

贪心算法，缺乏全局最优

数据微小变化可能导致完全不同的树（不稳定）

🎮 互动演示：逐步构建决策树

施工数据集——算法如何一步步选择最优分裂？

#	地基类型	材料等级	天气	能否开工
1	岩石	A级	晴	能
2	岩石	B级	雨	能
3	粘土	A级	晴	能
4	粘土	B级	晴	否
5	沙地	A级	晴	否
6	沙地	B级	雨	否
7	岩石	A级	雨	能
8	粘土	A级	雨	能

点击按钮，观察算法如何贪心选择最优特征进行分裂...

⚠️ 停止条件的重要性：如果不设置停止条件，决策树会一直分裂直到每个叶节点只有一个样本——这就是严重的过拟合！

🎮 互动演示：剪枝——拖动滑块找到最优深度

树的深度如何影响训练/测试准确率？

树的最大深度 8

训练集准确率

99.5%

测试集准确率

72.0%

训练准确率

99.5%

测试准确率

72.0%

过拟合！训练准确率很高但测试准确率很低，树太深把噪声也学进去了。

✂️ 预剪枝（Pre-pruning）

在树生长时就限制深度、最小样本数等，提前防止过拟合。

🪓 后剪枝（Post-pruning）

先让树充分生长，再自底向上删除不必要的分支（如CART的ccp_alpha）。

🎮 互动演示：回归树——拖动分割线拟合数据

养护天数 vs 抗压强度（MPa）：添加分割来降低预测误差

分割数量 0

均方误差 MSE

285.3

分割数

0

每个区域内的预测值 = 该区域样本的均值（虚线）。分割越多，MSE越低，但过多分割会导致过拟合。

$$\hat{y}_{\text{leaf}} = \frac{1}{|R_m|}\sum_{x_i \in R_m} y_i \quad \text{（叶节点预测 = 该区域样本均值）}$$

02

分裂准则

如何找到最好的分割点？——基尼指数 vs 信息熵

节点不纯度：衡量混乱程度

📚 类比：图书馆管理员把一堆书分到两个书架，目标是让每个书架上的书尽可能属于同一类（“结构力学” vs “施工技术”）。分裂准则的好坏可以用节点不纯度函数来衡量。

基尼指数（Gini Index）

如果从书架上随机取两本书，属于不同类别的概率越高，混乱程度越高，基尼指数越大。范围：0（纯净）到 0.5（最混乱）。

信息熵（Entropy）

衡量对分类结果的“惊讶”程度。一个随机事件发生，其信息量与概率成反比。范围：0（纯净）到 1（最混乱）。

$$\text{Gini} = 1 - \sum_{i=1}^{k} p_i^2$$

$$\text{Entropy} = -\sum_{i=1}^{k} p_i \log_2(p_i)$$

🎮 互动演示：不纯度实时计算器

这个节点里有 20 个混凝土样本，拖动滑块改变“合格”的比例，看两种指标如何变化：

✅ 合格样本比例 50%

基尼指数 Gini

0.500

信息熵 Entropy

1.000

Gini (0→0.5)

0.500

Entropy (0→1)

1.000

两类各半——节点最“不纯”，Gini=0.5，Entropy=1.0，这种节点需要继续分裂。

🎮 互动挑战：哪个分割更好？（点击你认为更好的那个）

节点中有 10 个样本（5绿/5红），下面两种分割方式，哪个基尼指数更低（更好）？

方案 A

方案 B

🎮 互动演示：寻找最佳分割点

前面我们学会了衡量“一个节点有多混乱”（基尼指数/信息熵）。现在的问题是：决策树怎么知道从哪里切一刀最好？

💡 核心思路很简单：分裂前有多混乱，分裂后有多混乱，两者的差值就是“信息增益”——差值越大，说明这一刀切得越好！

试试看：拖动分割线，找到使“增益”最大的最佳位置！

下面20个混凝土样本按水灰比从小到大排列。✓ 绿色 = 强度达标，✗ 红色 = 不达标。拖动滑块决定“从哪里切一刀”：

🔪 切割位置（水灰比） 0.50

⬅ 左组 (<0.50)：9达标 / 3不达标 | 右组 (≥0.50)：1达标 / 7不达标 ➡

分裂前（混乱度）

1.000

➜

分裂后（加权混乱度）

0.705

=

✨ 信息增益

0.295

左组混乱度

0.811

右组混乱度

0.544

📐 加权混乱度怎么算？ —— 按每组占比加权平均：

          左组占比 × 左组熵 + 右组占比 × 右组熵

          = 12/20 × 0.811 + 8/20 × 0.544 = 0.705

💡 人多的组权重大——如果左边有15个样本、右边只有5个，左边的混乱度更“算数”。

📈 信息增益

0.295

试着把滑块左右拖动——当“增益”最大时，就是决策树会选择的最佳切割点！

📌 公式只是上面过程的数学表达：$\text{Gain} = \text{分裂前的熵} - \text{分裂后各子节点熵的加权平均}$。决策树会遍历每个特征的每个可能切割点，选择增益最大的那个。

🎮 互动演示：ID3 的“偏心”陷阱

信息增益有一个著名的缺陷——它偏爱取值种类多的特征。点击下面的按钮亲自体验：

场景：8个混凝土样本，用哪个特征来分裂最好？

有 3 个候选特征：点击每个特征，看它的信息增益是多少——

👆 点击一个特征，看看用它来分裂会发生什么——

03

集成学习

三个臭皮匠，顶个诸葛亮——点击每个评审员，看集成投票的威力！

🎮 互动演示：模拟集成投票（点击每个🤖投出一票）

每个模型有 60% 的准确率。点击每个机器人，模拟它对“这个结构是否合格”的判断：

单模型准确率 60%

基模型数量 7

单模型准确率

60%

集成后准确率（理论）

70%

单模型

60%

集成后

70%

调整参数后，重新点击机器人们投票！

数学证明：为什么集成学习有效？

投票准确率计算

5 个独立二分类模型，每个准确率 60%，多数投票：

$$C_5^3(0.6)^3(0.4)^2 + C_5^4(0.6)^4(0.4)^1 + C_5^5(0.6)^5 \approx 0.683$$

60% → 68.3%！方差也从 $\sigma^2$ 降低为 $\dfrac{\sigma^2}{n}$。

并行集成（Bagging）

多个模型独立并行训练，最后汇总。目标：降低方差，提高稳定性。代表：装袋法、随机森林。

串行集成（Boosting）

模型顺序训练，后一个修正前一个的错误。目标：降低偏差，提高准确性。代表：AdaBoost、XGBoost。

集成学习成功的三个条件 + 多样性测试

🎯

准确性

每个基模型准确率必须 > 50%（好于随机猜测）。

🎭

多样性

各模型在不同样本上犯错，才能互相纠正。

🔧

合理整合

分类用多数投票，回归用均值/加权平均。

🎮 多样性测试：点击机器人切换“独立/跟风”模式

5个模型投票：独立的模型各自判断，跟风的总是和1号一样。点击切换！

🤖

独立

🤖

独立

🤖

独立

🤖

独立

🤖

独立

独立模型数

5

集成准确率

68%

所有模型独立判断，集成效果最佳！多样性是集成成功的关键。

04

装袋法（Bagging）

有放回抽样 + 并行训练——亲眼看到 Bootstrap 是怎么工作的

🎮 互动演示：Bootstrap 有放回抽样（点击开始！）

原始数据集有 10 个混凝土强度检测样本，装袋法会从中有放回地抽取多个训练子集。注意：同一个样本可能被重复选中！

训练集 1

训练集 2

训练集 3

🟡 袋外数据 OOB（训练集1未选中的样本，约1/3）

点击按钮开始抽样！观察：哪些样本被多次选中？哪些没被选中？

装袋法工作流程

1

有放回抽样

从原始数据集多次有放回抽取，生成多个子训练集

→

2

独立训练

每个子集独立训练一个基学习器，互不影响

→

3

整合结果

分类→多数投票
回归→取平均值

袋外验证 OOB

每次约 1/3 数据未被选中，可以“免费”评估模型好不好（下面详细解释👇）

降低方差

多模型投票/平均，单个模型的误差被平均掉，整体更稳定

并行训练

各模型完全独立，可并行计算，效率高

🎮 互动模拟：OOB比例实验

Bootstrap抽样中，有多少样本不会被选中？用模拟来验证理论！

样本数量 n 10

实际未被选中比例

—

理论值 $e^{-1}$

36.8%

模拟结果

—

理论值

36.8%

点击按钮运行模拟！公式：$\left(1-\frac{1}{n}\right)^n \to e^{-1} \approx 0.368$

袋外数据（OOB）为什么能做“无偏估计”？

先搞懂一件事——什么是“无偏估计”？

🎯

打靶类比

射击10次，如果弹孔平均落在靶心（虽然有偏左偏右），就叫“无偏”。如果弹孔总是偏左，就是“有偏”。

无偏估计的意思就是：用这种方法反复评估模型，得到的平均分不会系统性地偏高或偏低，而是恰好围绕真实水平。

📝

考试类比

你做了一套模拟题，拿同一套题给自己打分——分数虚高（因为你已经看过题了），这就是有偏的。

但如果每次考试后，用你从没见过的题目来打分，得到的分数才能真实反映你的水平——这就是无偏的。

🔑 OOB 为什么天然无偏？

1

每棵树有“没见过的数据”

训练第 1 棵树时，样本 2、4、10 没被选中（袋外）。这棵树在训练时完全没见过这 3 个样本——就像考试时没见过的新题。

2

用“没见过的数据”打分

把样本 2 扔给第 1 棵树预测，得到的分数是客观的——因为这棵树训练时没“偷看”过样本 2 的答案。

3

每个样本都被“公正评判”

对于样本 2，找到所有没用过它训练的树，让它们投票预测，然后跟真实值对比——这个预测结果完全公正，没有“作弊”成分。

4

汇总得到 OOB 误差

对所有样本重复上述过程，统计“预测对了多少、错了多少”——这就是OOB误差，它跟你拿一份全新的测试集来评估得到的结果几乎一样准确。

💡 为什么这很有用？通常评估模型需要留出一部分数据做“测试集”，数据就少了。OOB 方法不需要额外留出数据，却能达到同样公正的评估效果——等于“免费”送你一个测试集！在数据量有限的土木工程试验中（比如只有几十个混凝土试块），这非常宝贵。

05

随机森林

装袋法的升级版——每棵树只看“部分特征”，让树们更有多样性

🎮 互动演示：随机森林的两层随机性

随机森林 = 装袋法 + 随机特征选择。点击下方按钮，看看每棵树的训练数据和候选特征有何不同：

房价预测：4 个特征 × 10 个样本，观察每棵树的“随机性”来自哪里

🎲 第一层随机：Bootstrap 抽样

和装袋法一样，每棵树从原始数据中有放回抽样，只用约 63% 的数据训练。

🎲 第二层随机：特征子集

每次节点分裂时，只从 m=2 个随机特征中选最优，不用全部 4 个。

点击按钮，看每棵树的数据和特征都不一样！

⚠️ 常见误解：随机森林不是“每棵树用全部数据”！它和装袋法一样，每棵树只用 Bootstrap 抽样得到的部分数据训练。两层随机性共同保证了树的多样性。

下面 6 棵树各自用了不同的特征组合——装袋法每棵树用全部 4 个特征，随机森林每棵树只随机选 m=2 个：

💡 “三个臭皮匠”需要尽可能互不相关！如果每棵树都选最强的特征（如“犯罪率”），它们会高度相似，集成效果差。随机特征选择强迫树们“各显神通”。

📌 关键关系：当 m = 全部特征数时，随机森林退化为普通装袋法（因为没有了特征随机性）。

变量重要性（Feature Importance）

随机森林虽然牺牲了单棵树的可解释性，但可以通过变量重要性了解哪些特征最有影响力：

📊 波士顿房价案例：最重要的特征是 LSTAT（低收入人口比例） 和 RM（平均房间数）。方法：对每个特征，计算其在所有树中导致的基尼指数下降幅度，取平均。

🎮 互动演示：随机森林参数调优

调节参数，观察随机森林的表现变化

n_estimators（树数量） 50

max_features（特征数 / 共4个） 2

集成准确率

82.5%

树间相关性

中

准确率

82.5%

50棵树，每棵选2个特征候选。多样性适中，准确率不错。

土木工程案例：混凝土强度预测

用一个实际的土木工程场景来对比单棵决策树和随机森林的表现：

📋 数据描述

任务：预测混凝土试块的28天抗压强度（回归问题）
数据：500个混凝土试块的检测记录
特征：水灰比、水泥用量(kg/m³)、骨料粒径(mm)、养护天数、外加剂用量(%)、砂率(%)、坍落度(mm)、环境温度(°C)
目标：预测抗压强度(MPa)

模型性能对比（决定系数 $R^2$，越接近1越好）：

单棵决策树

R²=0.72

随机森林(100棵)

R²=0.89

随机森林(500棵)

R²=0.91

💡 随机森林将单棵树的R²从0.72提升到0.89，泛化能力显著增强，还可通过特征重要性发现“水灰比”和“养护天数”是最关键因素。

06

提升法（Boosting）

专注于“补差”——每一轮都重点学习上一轮的错误案例

先回顾：装袋法 vs 提升法——两种完全不同的思路

前面我们学的装袋法是"大家各干各的，最后投票"。提升法则完全不同——

🏗️

装袋法：并行施工队

请 10 个施工队同时独立建造，最后取平均质量。
每个队看到略有不同的图纸（随机抽样），但互不交流。

目标：大家各有小失误，平均后就稳定了 → 降低方差

📋

提升法：质检整改循环

第 1 轮质检发现 3 处缺陷 → 第 2 轮重点整改这 3 处 → 第 3 轮再查漏补缺…
每一轮都盯着上一轮的问题，逐步完善。

目标：专攻薄弱环节，精度越来越高 → 降低偏差

⚠️ 关键区别：装袋法的每个模型是“独立的”——互不影响；提升法的每个模型是“接力的”——后一个专门修正前一个的错误。所以提升法必须串行，无法并行。

AdaBoost：自适应提升

AdaBoost 是最经典的提升法。核心思想用一句话概括：“哪里不会补哪里”——分错的样本下一轮给更多关注。

1

均等初始化

所有样本权重相等（1/n），一视同仁

→

2

训练弱分类器

基于当前权重训练一个简单模型（如只有一层的“树桩”）

→

3

调整权重

分错的样本 → 权重放大⬆
分对的样本 → 权重缩小⬇

→

4

重复 2~3

用更新后的权重再训练下一个弱分类器

→

5

加权投票

所有弱分类器按“话语权”加权投票，得出最终结果

💡 类比：就像老师改完卷子后，把错题标记出来让学生重点复习，第二次考试时重点考上次的错题。如此反复几轮，学生就把所有知识点都掌握了。

🎮 互动演示：AdaBoost 权重更新动画（点击“下一轮”观察变化）

16 个建筑质检样本：● 蓝色 = 合格，● 红色 = 不合格。

⭕ 圆圈越大 = 权重越高 = 下一轮重点关注！白色边框 = 本轮被分错的样本。

第 0 轮

初始状态：所有样本权重相等

初始状态：给所有 16 个样本分配相等权重（每个 1/16 = 6.25%）。第一个弱分类器将对它们平等对待——没有哪个样本更重要。点击“下一轮训练”，看看第一个弱分类器分错了哪些样本，以及权重如何变化！

🎮 互动演示：弱分类器的“话语权”怎么定？

每个弱分类器在最终投票时有不同的“话语权” $\alpha$。错误率越低的分类器，话语权越大——就像考试成绩好的同学，推荐更值得信赖。

拖动滑块改变错误率，观察话语权如何变化

弱分类器错误率 ε 0.30

分类器权重 α（话语权）

0.424

话语权大小

中等

α 值

0.424

这个分类器训练完后，样本权重怎么更新？

✅ 分对的样本

权重 × 0.655

权重缩小 → 下轮少关注

❌ 分错的样本

权重 × 1.527

权重放大 → 下轮重点关注

错误率30%：这个分类器有一定话语权，正确样本权重缩小，错误样本权重放大。

📌 公式（了解即可）：$\alpha_t = \frac{1}{2}\ln\frac{1-\epsilon_t}{\epsilon_t}$。错误率 $\epsilon$ 越小 → $\alpha$ 越大 → 这个分类器在最终投票中越重要。

🎮 互动演示：3 个弱分类器如何"加权投票"？

经过 3 轮训练，我们得到了 3 个弱分类器，每个都有不同的"话语权" α。现在来了一个新样本——点击每个分类器看它的判断，最后看加权投票的结果！

场景：一块混凝土试块，它的强度是否合格？

弱分类器 1

α₁ = 0.42（话语权小）

🤖

点击查看判断

弱分类器 2

α₂ = 0.65（话语权中）

🤖

点击查看判断

弱分类器 3

α₃ = 0.91（话语权大）

🤖

点击查看判断

👆 逐个点击 3 个分类器，看看它们各自怎么判断，最后加权投票的结果是什么！

AdaBoost 的优缺点

✓ 优点

降低偏差，逐步攻克难样本，准确率高

自动特征选择，忽略噪声特征

不太容易过拟合（理论上有上界保证）

可以用各种弱学习器（不限于决策树）

✗ 缺点

必须串行训练，速度比装袋法慢

对噪声和异常值敏感：异常样本会被不断放大权重，可能带偏整个模型

对弱分类器有要求：准确率至少 > 50%，否则会越训越差

⚠️ 噪声陷阱：如果数据中有标记错误的样本（比如不合格的混凝土被标成了合格），AdaBoost 会在每一轮都给它更多关注，试图“学会”这个错误——这就是为什么在噪声多的数据上，随机森林往往比 AdaBoost 更稳健。

🎮 互动演示：残差拟合——GBM 的核心思想

AdaBoost 通过调整样本权重来补差。GBM（梯度提升）换了一种更直接的方式：让每棵新树去拟合前面所有树的“残差”（预测值与真实值的差距）。

💡 通俗理解：第 1 棵树预测“这块混凝土强度约 30 MPa”，实际是 35 MPa，差了 5。第 2 棵树的任务不是重新预测强度，而是专门预测这个 +5 的差距。第 3 棵树再预测剩余的差距……如此叠加，预测越来越准。

点击“添加下一棵树”，观察预测值（绿点）逐步逼近真实值（蓝点）

● 蓝点 = 真实强度值 ● 绿点 = 当前预测值 ┆ 红色虚线 = 残差（还差多少）

当前：0 棵树。点击按钮开始逐步拟合！

每棵新树都只负责“补上一轮的差距”，所以红色虚线会越来越短——残差越来越小，预测越来越准！

从 AdaBoost 到 XGBoost：提升法家族的演进

1

AdaBoost（1995）开创者

通过调整样本权重让弱分类器逐步攻克难例。简单优雅，但对噪声敏感。

2

GBM — 梯度提升机（2001）突破

不再调权重，改为让每棵新树拟合残差。支持各种损失函数（分类、回归均可），更灵活。

3

XGBoost（2016）工业级

在 GBM 基础上加入正则化防止过拟合，用二阶泰勒展开加速优化，支持并行和 GPU。Kaggle 竞赛的“屠榜利器”。

4

LightGBM / CatBoost（2017+）更快更强

LightGBM（微软）：直方图加速 + 叶子优先生长，训练速度提升 10 倍以上，适合大数据。CatBoost（Yandex）：对类别特征有天然支持。

🏆 XGBoost 在实际工程中的应用：桥梁健康监测（基于传感器数据预测结构状态）、地震损伤等级预测、混凝土耐久性评估等。在 2015-2019 年间，Kaggle 竞赛超过半数获胜方案使用了 XGBoost。

07

对比总结

三种方法的关键区别与选择指南

全面对比

维度	装袋法	随机森林	提升法
优化目标	降低方差	降低方差	降低偏差
训练方式	并行独立训练	并行 + 随机特征	串行顺序依赖
树间关系	独立，相关性高	独立，相关性低	顺序依赖，后补前错
性能特点	稳定，防过拟合	更稳定，特征重要性	精度高，适合复杂问题
噪声敏感	中等	中等	敏感（给噪声更高权重）
代表算法	Bagging	Random Forest	AdaBoost / XGBoost

演进路线与学习建议

1

单棵决策树

直观，但不稳定易过拟合

→

2

装袋法

多树并行，降低方差

→

3

随机森林

降低树间相关，更强

→

4

提升法族

串行修正，精度最高

→

5

XGBoost

工业级，竞赛首选

土木工程应用场景

🏗️

施工安全评估

基于地基、材料、天气等特征，预测施工是否安全——决策树（可解释规则）

🏘️

房屋价格预测

用周边设施、楼龄、楼层等预测市场价格——随机森林（高精度）

🌉

桥梁健康监测

基于传感器数据分类桥梁健康状态——XGBoost（大数据，高精度）

🎮 互动测试：模型选择情景问答

面对以下场景，你会选择哪个模型？

你有50个混凝土样本，需要解释为什么某批次不达标。

单棵决策树

随机森林

XGBoost

线性回归

场景 1 / 5

★

随堂测验

15 题，源自课件回顾问题，答错有解析

得分：0 / 15