使用管道的理由

在前面的章节中，我们将数据准备（例如缩放或编码）和模型训练视为独立任务。您可能编写过类似这样的代码：应用缩放器，然后应用编码器，最后训练模型。尽管这适用于简单情况，但随着工作流程的增加，单独管理这些步骤会变得越来越复杂且容易出错，特别是在加入模型评估技术如交叉验证时。

思考使用k折交叉验证的过程。对于每个折叠，您需要：

将数据分成训练集和验证集。
仅在该折叠的训练数据上拟合您的预处理步骤（例如，StandardScaler，OneHotEncoder）。
将这些已拟合的预处理器应用（转换）到该折叠的训练数据和验证数据。
在预处理后的训练数据上训练您的模型。
在预处理后的验证数据上评估模型。

手动为每个折叠重复此序列既繁琐又增加了出错的机会。更重要的是，存在一个常见问题：数据泄露。

数据泄露问题

一个常见错误是在为交叉验证分割数据之前，对整个数据集执行预处理步骤，例如拟合缩放器。例如，使用所有数据计算StandardScaler的均值和标准差，这意味着来自验证折叠的信息（模型在训练期间不应看到的数据）会影响应用于训练折叠的转换。这种泄露会导致评估期间的性能估计过于乐观，因为模型在预处理阶段间接获得了关于验证数据的知识。模型在真正未见数据上的表现可能会比您的交叉验证结果所显示的更差。

管道：封装工作流程

Scikit-learn的Pipeline对象为这些问题提供了一个优雅的解决方案。管道顺序组合多个数据处理步骤（转换器）和一个最终估计器（例如分类器或回归器），使其成为一个单一对象。

把它想象成打包您的整个操作序列。这个单一的管道对象表现得像任何其他Scikit-learn估计器一样：它具有fit、predict方法，有时还有transform或score方法。

使用管道的主要优势是：

便利性和可读性： 不必为拟合转换器、转换数据和拟合最终模型编写单独的代码，您只需在管道内定义一次序列。您的代码变得更简洁、更容易理解，因为整个工作流程都被封装起来。拟合管道会自动适当地处理每个步骤的拟合/转换逻辑。
防止数据泄露： 当与交叉验证或训练-测试分割一起使用时，这也许是最大的好处。当您将Pipeline对象传递给cross_val_score或GridSearchCV等函数时，Scikit-learn足够智能，可以确保对于每个交叉验证折叠，预处理步骤的fit_transform方法仅在该折叠的训练部分上调用。然后，验证部分仅使用transform方法进行处理。这正确模拟了模型如何在新的、未见数据上使用，并防止信息从验证集泄露到每个折叠内的训练过程中。

这张图对比了预处理在分割前发生的错误工作流程，以及使用管道的正确工作流程，其中预处理在每个交叉验证折叠中得到妥善处理。
工作流程管理： 管道使得管理您的整个建模过程变得容易得多。您拥有一个单一对象，代表从原始数据输入到预测输出的序列。这对于部署、复现性和实验很有帮助（例如，在管道内替换一个估计器）。

通过链接转换器和估计器，Pipeline创建了一个复合估计器，它可以简化您的代码，帮助防止评估期间常见的数据泄露等错误，并使您的机器学习 (machine learning)工作流程更有条理和更易于维护。在接下来的章节中，我们将了解如何在实践中构建和使用这些管道。

参考文献

Pipeline and FeatureUnion, Scikit-learn developers, 2023 - Scikit-learn 管道的官方指南，解释其目的和实现方法以构建复合估计器。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2022 (O'Reilly Media) - 一本实用指南，演示如何在机器学习项目中应用 Scikit-learn 管道、管理交叉验证并避免数据泄漏。
Applied Predictive Modeling, Max Kuhn and Kjell Johnson, 2013 (Springer) DOI: 10.1007/978-1-4614-6849-3 - 提供数据预处理策略、交叉验证等重采样方法以及在模型评估中防止数据泄漏的重要性的基础知识。