趋近智
尽管装袋法(Bagging)通过平均独立模型来构建集成,但提升法(Boosting)采用的是更具协作性、更讲究顺序的方法。它不是让能力相当的模型进行一轮投票,而是构建一个专家团队,其中每个新成员都经过训练,以修正团队迄今为止所犯的错误。这个迭代过程是提升法能够生成高准确度模型的根本。
设想一群学生正在学习一门有难度的主题。第一个学生学习材料并进行一次练习测试,他们答对了一些问题,也答错了一些。老师随后给第二个学生相同的材料,但会着重指出第一个学生答错的问题。第二个学生会将精力集中在这些有难度的问题上。这个过程会持续下去,每个后续的学生都专注于剩余的薄弱环节。最终的“模型”是所有学生知识的结合,对于那些掌握了更难知识点的学生,会给予更多肯定。
这正是提升法背后的原理。该算法构建了一系列模型,通常是称为弱学习器的简单模型,链中的每个模型都经过训练,以修正其前一个模型的错误。
弱学习器是一种表现仅略好于随机猜测的模型。在提升法中,最常见的弱学习器是决策树桩,它是一种只有单次分裂的决策树。单独来看,决策树桩并不是非常强大。然而,通过以结构化、顺序化的方式结合数百或数千个决策树桩,提升法算法可以构建出高准确度且强大的最终模型。
该过程通常遵循以下步骤:
下图说明了这个迭代流程。
每个弱学习器都在一个数据集版本上进行训练,其中被先前学习器错误分类的点被赋予更高的关注。最终模型是所有学习器预测的加权和。
“侧重于错误”的方法是区分不同提升算法之处。从宏观层面来看,主要有两种方法:
无论具体技术如何,最终预测并非仅由最后一个模型做出。相反,它是训练过程中所有弱学习器的加权组合。一个强学习器 ,通过对所有弱学习器 的输出求和形成,每个输出都由一个权重 (weight) 进行缩放。
权重 通常反映了弱学习器 的表现;表现更好的学习器在最终结果中拥有更大的发言权。这种加权聚合将一系列简单、弱的模型转化为一个单一、强大的预测器。
这种顺序的、修正错误的过程是提升法的决定性特点。在下一节中,我们将研究AdaBoost,它是第一个实用且非常成功的提升算法,以此来了解这些思想的具体实现。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•