趋近智
在之前的章节中,我们将数据预处理和模型训练作为独立的步骤进行处理。顺序执行这些操作,尤其是在交叉验证循环中,可能会很麻烦,并且存在无意中将测试折叠中的信息泄露到训练过程中的风险。
本章介绍 Scikit-learn 的 Pipeline 对象,这是一个旨在将多个处理步骤(例如缩放器、编码器和缺失值填充器)与一个最终估计器(例如分类器或回归器)链接起来的工具。您将学习如何构建这些管道,以创建一个代表您整个建模流程的单一对象。我们将介绍如何使用 GridSearchCV 将管道与交叉验证和超参数 (parameter) (hyperparameter)调优有效地结合起来,确保预处理在每个折叠中正确应用。最后,我们将讨论如何使用 ColumnTransformer 来构建更复杂的管道,这些管道可以对数据集中的不同列子集应用不同的转换。
6.1 使用管道的理由
6.2 创建简单管道
6.3 访问流水线步骤
6.4 使用管道结合交叉验证
6.5 使用管道进行网格搜索
6.6 使用 ColumnTransformer 构建复杂管道
6.7 实战:流水线的构建与调优