趋近智
有序目标统计(Ordered TS)提供了一种合理的方法来编码类别特征,它仅依赖数据中已观察到的历史信息。这项技术大幅降低了与简单目标编码方法相比的目标泄露风险。然而,在标准的梯度提升训练过程中,一个称为预测偏差的问题仍然可能出现。
预测偏差的出现,是因为在第 次迭代中为特定训练样本计算的梯度(或残差)依赖于使用所有先前迭代构建的模型 。如果在构建 中的树时使用了目标统计信息,那么即使编码本身使用了有序目标统计,模型也已隐式地获取了当前样本目标变量的信息。模型更新过程本身会重新引入偏差。具体来说,当为样本 计算残差时,模型已经通过先前提升步骤中使用的目标统计信息受到了样本 目标值的影响。
CatBoost 提出了有序提升来直接处理这种预测偏差。与在原始数据集上训练单个模型序列不同,有序提升使用训练数据的随机置换。
考虑模型 顺序构建的标准提升过程:
在此, 是在第 步训练的树,通常拟合到使用 计算的负梯度(残差)。问题在于,当为样本 计算 时,所使用的模型 可能已经通过在步骤 中的目标编码受到了 的影响。
有序提升修改了此过程。其工作方式如下:
这一过程确保了在为给定样本计算梯度估计时,用于此计算的模型没有受到该样本目标值的影响。它模拟了推断时的情形,即目标值未知的情况。
让我们用一个简化视图来理解这一点,以单个置换 为例。
有序提升在提升步骤 的简化视图,以一个置换 为例。用于计算样本 残差的模型仅使用置换中位于其之前的样本( 到 )构建。
有序提升与有序目标统计相辅相成。有序目标统计确保样本 的特征编码仅使用置换中位于其之前的样本的目标信息。有序提升则确保 的梯度计算仅使用在该置换中位于其之前的样本上训练的模型。它们共同为防止目标泄露污染特征表示和模型更新步骤提供了防御。
虽然维护 个单独的模型看似计算量很大,但 CatBoost 采用高效的实现技术,特别是运用了其无偏差树(将在“无偏差树”一节讨论)的结构,使有序提升变得实用。
“有序提升的主要优点是大幅减少预测偏差,从而使模型在训练数据到未见过数据上具有更好的泛化能力。这在处理包含强大类别预测器的数据集时尤其有益,因为在这些数据集中,目标泄露很容易导致训练期间的性能指标虚高,而这些指标无法转化为实际性能。最终的模型通常更可靠。”
主要的权衡是与不采用此类机制的标准梯度提升实现相比,训练时间可能增加。然而,CatBoost 的整体优化,包括 GPU 加速和对类别数据的有效处理,通常使其在实践中具有竞争力甚至更快,特别是在其专门功能有优势的数据集上。
通过直接解决预测偏差问题,有序提升结合有序目标统计,代表了梯度提升算法在处理类别数据方面的一大进步,大大提升了 CatBoost 在开箱即用时的准确性和稳定性方面的声誉。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造