趋近智
虽然单个决策树(正如我们在上一节看到的那样)通过划分特征空间提供了一种可解释的数据建模方式,但它们有其局限。它们容易出现过拟合 (overfitting),这意味着它们对训练数据(包括其中的噪声)学习得过于充分,而在未见过的数据上表现不佳。它们也可能不稳定;训练数据中的微小变化会导致树结构明显不同。
为解决这些问题,集成方法结合多个决策树以生成更准确的模型。两种突出且广泛使用的树集成技术是随机森林和梯度提升。两者都使用基本的树结构,但以不同的方式构建和组合它们。
随机森林基于创建大量决策树并汇总其输出的原理运作。其核心思想是,通过平均许多不同、单独不完善的树的预测结果,整体预测会变得更准确,且对训练数据的具体情况不那么敏感。随机森林中的“随机性”来自两个主要方面:
随机森林过程示意图:数据通过自助采样生成多个样本,每个样本用于训练一个决策树,并在划分时考虑随机特征子集。预测结果被聚合。
为了对新的数据点进行预测,随机森林会将输入通过森林中的每棵树。对于分类任务,最终预测通常是个别树获得最多票数的类别。对于回归任务,最终预测通常是所有树的预测结果的平均值。
这种方法明显降低了方差,与单个决策树相比,而不会大幅增加偏差。随机森林以其在默认设置下的良好表现、对过拟合 (overfitting)的抵抗力以及在预测中评估不同特征重要性的能力而闻名。从结构上看,随机森林只是树对象的一个集合(例如,列表或数组)。
梯度提升机(GBM),尤其是那些使用树作为基础学习器(梯度提升树)的,采用不同方法。与随机森林并行构建独立树不同,梯度提升是顺序构建树。每棵新树都试图纠正到目前为止所构建的树集成模型产生的误差。
该过程通常按以下方式进行:
显示梯度提升顺序性质的图示。每棵新树都在当前集成模型的残差(误差)上进行训练,逐步提升整体预测性能。
梯度提升通常能得到预测准确度很高的模型。然而,与随机森林相比,它需要更仔细地调整超参数 (parameter) (hyperparameter)(如树的数量、树深度和学习率)。如果控制不当,梯度提升模型也可能过拟合。顺序性质表示训练不如随机森林那样容易并行化。
随机森林和梯度提升都基本依赖决策树数据结构。集成模型本身通常存储为这些树结构的一个集合(例如,列表或数组)。对于梯度提升,还可能存储学习率或与每棵树相关的特定权重 (weight)等附加信息。
理解这些集成方法显示了如何以巧妙的方式结合简单的树结构,产生强大且广泛使用的机器学习 (machine learning)模型。它们有效减轻了单个决策树的缺点,为各种分类和回归任务提高了准确性和稳定性。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•