趋近智
虽然网格搜索和随机搜索提供了系统性的超参数 (parameter) (hyperparameter)空间方法,但它们可能计算成本高昂且效率低下。网格搜索受维度灾难影响,会考察许多前景不佳的区域。随机搜索通常更高效,但缺少根据过往结果集中关注可能更好区域的策略。贝叶斯优化为超参数调优提供了一种更明智的方法,旨在通过更少次的目标函数评估(通常成本较高)来找到最优配置,在我们这里,目标函数评估涉及训练和验证梯度提升模型。
贝叶斯优化核心在于构建一个关于超参数 (parameter) (hyperparameter)与模型性能(例如,验证准确率或损失)之间关系的概率模型。这个模型被称为代理模型,其评估成本比实际目标函数更低。贝叶斯优化使用这个代理模型来智能地决定接下来尝试哪组超参数。它平衡了对代理模型不确定区域的考察(探索)与对当前已知表现最佳区域附近的采样(利用)。
贝叶斯优化主要由两个部分构成:
概率代理模型: 该模型近似真实的客观函数 ,其中 代表一组超参数 (parameter) (hyperparameter),而 是得到的模型性能指标(例如,验证AUC、RMSE)。它使用先前评估的结果(超参数集、性能)迭代构建。代理模型的一个常见选择是高斯过程(GP)。高斯过程定义了函数上的先验分布,并随着更多数据点(评估)的可用而更新此信念。重要的是,高斯过程不仅为未经测试的超参数配置的性能提供平均预测,还提供该预测的不确定性估计。这种不确定性度量对于指导搜索具有重要意义。
采集函数: 该函数利用代理模型的预测(均值和不确定性)来确定在候选点 处评估目标函数的“效用”。它量化 (quantization)了特定超参数配置的潜力,平衡了考察不确定区域与利用已知能产生良好结果区域之间的权衡。常见的采集函数包括:
贝叶斯优化过程遵循一个迭代循环:
最终推荐的超参数集是该过程中观察到性能最佳的那一个。
图示显示了多次迭代后已评估的超参数点。贝叶斯优化利用这些点的性能来决定下一步采样的位置(可能在星标所示的当前最佳点附近,或在较少考察的区域)。
learning_rate、reg_alpha)、整型(例如,max_depth、num_leaves)和分类型超参数(尽管有时需要特定处理或编码)。XGBoost、LightGBM和CatBoost等梯度提升模型通常具有大量以复杂方式彼此影响的超参数 (parameter) (hyperparameter)。调优 learning_rate、n_estimators、树复杂度控制(max_depth、num_leaves、min_child_weight)、子采样率(subsample、colsample_bytree)和正则化 (regularization)项(reg_alpha、reg_lambda)等参数对于获得最佳性能是必需的。训练和评估这些模型可能产生的高昂成本使得贝叶斯优化成为一种特别有吸引力且高效的策略。
通过智能地在复杂的超参数空间中进行导航,贝叶斯优化有助于将计算资源集中在最有可能提升模型准确性和泛化能力的配置上,超越了暴力或纯随机方法。下一节将介绍Optuna和Hyperopt等特定框架,它们提供了这些高级调优技术的实际实现。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•