机器学习模型从数据中学习规律。然而,收集到的原始数据往往不适合模型高效学习。从原始数据中选择、转换和生成输入变量(即特征)的过程称为特征工程。本章将提供理解此过程的初步介绍。首先,您将把特征工程放置在更广泛的机器学习工作流程中。我们将定义什么是“特征”,并考察特征的质量和相关性如何直接影响模型的学习和泛化能力。我们还将查看常见的数据类型,例如数值数据和类别数据,以及它们所需的具体考量。最后,本章将提供特征工程中涉及的主要任务的高级概览,为后续章节中详细介绍的技术做好准备。