趋近智
CatBoost 的一个显著特点,也是其区别于 XGBoost 和 LightGBM 等算法之处,在于它使用遗忘树(也称为对称树)作为基学习器。大多数决策树算法构建的是非对称树,其中在相同深度可能出现不同的分割,具体取决于所走的路径,而 CatBoost 则强制执行更严格的结构。
在遗忘树中,同一深度级别的所有节点都测试完全相同的特征,并使用完全相同的分割条件(阈值)。这意味着树是完美平衡和对称的。从根到叶节点的每条路径长度相同,并且在每一步遇到的分割标准对于经过该层的所有样本都是一致的。
考虑一个简单例子。如果一个遗忘树的深度为 2:
Feature_X < threshold_1。Feature_Y > threshold_2。这形成了一种结构,其中对于给定的深度,测试的特征和阈值的顺序是固定的,无论数据点遵循哪个分支。
深度为 2 的遗忘树结构示例。请注意,第 1 层的所有节点都使用相同的分割条件(
特征 Y < T2)。
为什么要施加这样的结构限制?遗忘树在 CatBoost 框架内提供了多项显著优点:
遗忘树与 CatBoost 的其他创新良好结合。复杂特征组合(分类特征之间的交互)的生成可能导致高维特征空间。遗忘树的简单、规则结构提供了一种即使在考虑这些大量生成的特征时也能构建模型的方法。固有的正则化也有助于管理这些组合带来的潜在复杂性。
主要的权衡是,单个遗忘树可能不如非对称树那样强大,或者需要更大的深度才能直接捕捉某些复杂的交互。非对称树可以专门为到达特定节点的数据子集定制分割。然而,CatBoost 的集成方法,结合了有序提升(Ordered Boosting)和自动特征组合等特性,旨在在模型层面克服这一限制,同时保留对称结构的性能和正则化优势。
本质上,遗忘树是 CatBoost 设计理念的一个核心组成部分,它通过一种独特且结构化的方法来构建决策树集成模型,优先考虑效率、正则化和对分类数据的优化处理。这种结构选择是与其他流行梯度提升实现相比的一个根本区别。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造