趋近智
XGBoost 是一种强大且高效的梯度提升框架。它将正则化技术直接引入目标函数,并进行了稀疏感知和并行处理等系统级优化,这标志着相对于传统梯度提升机(GBM)的重大进步。对于许多问题,XGBoost在预测准确性和计算性能之间提供了出色的平衡。
然而,随着数据集在实例数量()和特征数量()两方面的持续增长,即使是像XGBoost这样经过优化的算法,也可能遇到显著的计算瓶颈。主要困难通常源于树构建过程中寻找最佳分裂点的过程。
考虑XGBoost默认的精确贪婪算法。为了在特定节点上为一个特征找到最优分裂,算法通常需要:
在每个节点上对所有实例和所有特征进行这种穷举搜索会变得计算量巨大。其成本大致与非缺失条目数量成比例,在密集情况下,每次分裂的成本可近似为。尽管存在优化措施(如预排序和缓存,或使用直方图的近似算法),但扫描大量数据或特征值的基本需求依然存在。
这种计算成本主要体现在两个方面:
这些局限性在现代机器学习中常见的场景中变得尤为明显:网络规模数据集、高维基因组数据,或涉及大量工程化或稀疏特征的问题。对一种梯度提升算法的需求,这种算法既能保持高准确度,又能大幅提高训练速度和减少内存使用,促成了LightGBM的开发。
LightGBM从一开始就以高效率为首要目标进行设计。它引入了几种新颖技术,专门用于减轻在大数据集上训练时产生的计算和内存成本。这些技术包括:
理解以往算法面临的这些具体计算障碍,为理解LightGBM中实现的设计选择和优化提供了背景,我们将在本章中详细审视这些内容。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造