高级调优：贝叶斯优化

虽然网格搜索和随机搜索提供了系统性的超参数 (parameter) (hyperparameter)空间方法，但它们可能计算成本高昂且效率低下。网格搜索受维度灾难影响，会考察许多前景不佳的区域。随机搜索通常更高效，但缺少根据过往结果集中关注可能更好区域的策略。贝叶斯优化为超参数调优提供了一种更明智的方法，旨在通过更少次的目标函数评估（通常成本较高）来找到最优配置，在我们这里，目标函数评估涉及训练和验证梯度提升模型。

核心理念：明智搜索

贝叶斯优化核心在于构建一个关于超参数 (parameter) (hyperparameter)与模型性能（例如，验证准确率或损失）之间关系的概率模型。这个模型被称为代理模型，其评估成本比实际目标函数更低。贝叶斯优化使用这个代理模型来智能地决定接下来尝试哪组超参数。它平衡了对代理模型不确定区域的考察（探索）与对当前已知表现最佳区域附近的采样（利用）。

组成部分

贝叶斯优化主要由两个部分构成：

概率代理模型： 该模型近似真实的客观函数 $f(x)$ ，其中 $x$ 代表一组超参数 (parameter) (hyperparameter)，而 $f(x)$ 是得到的模型性能指标（例如，验证AUC、RMSE）。它使用先前评估的结果（超参数集、性能）迭代构建。代理模型的一个常见选择是高斯过程（GP）。高斯过程定义了函数上的先验分布，并随着更多数据点（评估）的可用而更新此信念。重要的是，高斯过程不仅为未经测试的超参数配置的性能提供平均预测，还提供该预测的不确定性估计。这种不确定性度量对于指导搜索具有重要意义。
采集函数： 该函数利用代理模型的预测（均值和不确定性）来确定在候选点 $x$ 处评估目标函数的“效用”。它量化 (quantization)了特定超参数配置的潜力，平衡了考察不确定区域与利用已知能产生良好结果区域之间的权衡。常见的采集函数包括：
- 预期提升（EI）： 计算相对于当前观察到的最佳性能的预期提升量。它倾向于选择可能优于当前最佳的点，同时考虑预测均值和不确定性。
- 上置信界（UCB）： 选择性能具有高上置信界的点，明确平衡了利用（高均值预测）和探索（高不确定性）。其公式通常为 $UCB(x) = \mu(x) + \kappa \sigma(x)$ ，其中 $\mu(x)$ 是预测均值， $\sigma(x)$ 是预测标准差（不确定性）， $\kappa$ 是控制探索-利用权衡的可调参数。
- 提升概率（PI）： 计算一个点会产生比当前最佳结果更好的概率。

优化循环

贝叶斯优化过程遵循一个迭代循环：

初始化： 在几个初始超参数 (parameter) (hyperparameter)点 $x$ 处评估目标函数 $f(x)$ ，这些点通常是随机选择或通过空间填充设计（例如，拉丁超立方采样）选择的。
拟合代理： 将概率代理模型（例如，高斯过程）拟合到所有当前观测到的数据点 $\{(x_i, f(x_i))\}$ 。
优化采集： 使用当前代理模型，在搜索空间中找到使采集函数最大化的超参数配置 $x_{next}$ 。这一步的计算成本低于评估真实目标函数。
评估目标： 通过使用超参数 $x_{next}$ 训练和验证梯度提升模型来评估真实目标函数 $f(x_{next})$ 。这通常是最耗时的一步。
增加数据： 将新结果 $(x_{next}, f(x_{next}))$ 添加到观测数据点集中。
重复： 返回步骤2并重复，直到满足停止标准（例如，达到最大评估次数，预期提升可忽略不计）。

最终推荐的超参数集是该过程中观察到性能最佳的那一个。

图示显示了多次迭代后已评估的超参数点。贝叶斯优化利用这些点的性能来决定下一步采样的位置（可能在星标所示的当前最佳点附近，或在较少考察的区域）。

贝叶斯优化的优点

采样效率高： 相较于网格搜索或随机搜索，通常需要显著更少的昂贵目标函数评估次数来找到好的超参数 (parameter) (hyperparameter)配置。当训练梯度提升模型需要大量时间时，这尤其有利。
智能搜索： 积极利用先前评估的信息来指导搜索，使其趋向于超参数空间中更有希望的区域。
处理多种超参数类型： 能够有效处理连续型（例如，learning_rate、reg_alpha）、整型（例如，max_depth、num_leaves）和分类型超参数（尽管有时需要特定处理或编码）。

考量

计算开销： 拟合代理模型（尤其是高斯过程）和优化采集函数会在每次迭代中引入计算开销。如果目标函数本身的评估速度极快（例如，几秒钟），这种开销可能会抵消其优势。然而，对于评估需要数分钟或数小时的典型梯度提升调优任务，贝叶斯优化通常整体上更快。
复杂性： 其底层机制比简单的搜索方法更复杂。尽管库将其抽象化，但理解其原理有助于选择合适的设置（如采集函数或初始点）。
顺序性： 标准算法本质上是顺序的（下一个点的选择取决于所有先前结果），与评估相互独立的随机搜索相比，这会限制并行化。然而，存在允许批量评估的变体。

贝叶斯优化用于梯度提升

XGBoost、LightGBM和CatBoost等梯度提升模型通常具有大量以复杂方式彼此影响的超参数 (parameter) (hyperparameter)。调优 learning_rate、n_estimators、树复杂度控制（max_depth、num_leaves、min_child_weight）、子采样率（subsample、colsample_bytree）和正则化 (regularization)项（reg_alpha、reg_lambda）等参数对于获得最佳性能是必需的。训练和评估这些模型可能产生的高昂成本使得贝叶斯优化成为一种特别有吸引力且高效的策略。

通过智能地在复杂的超参数空间中进行导航，贝叶斯优化有助于将计算资源集中在最有可能提升模型准确性和泛化能力的配置上，超越了暴力或纯随机方法。下一节将介绍Optuna和Hyperopt等特定框架，它们提供了这些高级调优技术的实际实现。

这部分内容有帮助吗？

参考文献

Practical Bayesian Optimization of Machine Learning Algorithms, Jasper Snoek, Hugo Larochelle, Ryan P. Adams, 2012 Advances in Neural Information Processing Systems 25 (NIPS 2012), Vol. 25 (NeurIPS) - 这篇基础论文将贝叶斯优化应用于机器学习模型的调优，详细阐述了高斯过程和采集函数在高效超参数搜索中的应用。
Gaussian Processes for Machine Learning, Carl Edward Rasmussen and Christopher K. I. Williams, 2006 (The MIT Press) - 本书是关于高斯过程的权威著作，为其在贝叶斯优化中作为替代模型提供了全面的理论基础。
A Tutorial on Bayesian Optimization of Expensive Objective Functions, Eric Brochu, Vlad M. Cora, and Nando de Freitas, 2010 ArXiv, Vol. 1012.2599 DOI: arXiv:1012.2599 - 本教程清晰简明地介绍了贝叶斯优化的基本原理，包括高斯过程和采集函数，非常适合初学者。