趋近智
理解复杂的梯度提升模型的预测结果,对于建立信任和有效部署它们来说是必要的。SHAP(SHapley 加性解释)及其用于树集成模型的高效TreeSHAP变体,提供了一个统一且强大的框架来解释模型行为。这个框架支持全局和局部解释。区分这些不同层面的解释对于全面理解模型行为来说非常重要。
全局解释旨在描述训练好的模型在整个数据集上的整体行为。它们回答以下问题:
使用SHAP实现全局可解释性最常见的方法是汇总数据集中所有实例(通常是验证集或测试集)中每个特征的SHAP值。一个标准的方法是计算每个特征 的平均绝对SHAP值:
这里, 是实例的数量, 是实例 的特征 的SHAP值。具有更高平均绝对SHAP值的特征被认为总体上更具影响力。
这种汇总的重要性比传统的特征重要性指标(如树模型中的增益或分裂计数)提供了更可靠的衡量标准,后者有时可能不一致。
全局重要性可视化
SHAP摘要图是一种有力的可视化方式,将特征重要性与特征效应结合起来。它绘制了每个样本中每个特征的SHAP值,通常使用颜色表示原始特征值(高/低)。这不仅显示了哪些特征重要,还显示了它们影响的分布和方向。
显示不同特征平均绝对SHAP值的条形图。值越高表示对模型预测的总体影响越大。
另一种有用的全局可视化方式是SHAP依赖图,它显示了随着单个特征值的变化,模型的输出如何变化,并可能根据相互作用的特征进行着色。
尽管全局解释提供了一个高层次的视角,局部解释侧重于理解模型为何对单个实例做出特定预测。它们回答以下问题:
SHAP值本身是局部的。实例 的特征 的SHAP值 量化 (quantization)了该特征值如何将实例 的预测结果从基准值(训练数据集上的平均预测值)推开的贡献。
SHAP的核心方程通过该实例的SHAP值之和,将基准值 (平均预测值)与特定实例 的预测值 联系起来:
其中 是特征的数量。这种加性意味着我们可以直接看到每个特征相对于平均值对单个预测的正面或负面贡献。
局部解释可视化
围绕SHAP构建的工具通常提供诸如“力图”之类的可视化,用来说明局部解释。力图将SHAP值描绘为作用于基准值上的力。将预测推高的特征(正SHAP值)用一种颜色显示(例如,红色),而将预测推低的特征(负SHAP值)用另一种颜色显示(例如,蓝色)。特征块的大小对应于其SHAP值的大小。
显示对单个预测有贡献的力图。特征将预测值推离基准值(平均预测值)。红色特征降低预测值,蓝色特征增加预测值。最终预测值是基准值与所有特征贡献(SHAP值)的总和。
全局和局部解释并非相互排斥;它们提供对模型行为的互补视角。
通过配合使用TreeSHAP与XGBoost、LightGBM或CatBoost,你可以高效地计算这些SHAP值,并生成全局摘要和详细的局部细分,从而全面理解你的梯度提升模型。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•