机器学习模型从接收到的特征中学习规律。虽然前一章侧重于数据获取与清洗,但原始属性本身通常不以最有利于算法的格式呈现。本章专注于特征工程:它是一种做法,采用专业知识和特定方法来创建输入变量,以帮助机器学习算法获得更好表现。您将学习从各类数据类型生成新特征的实用方法:数值数据: 分箱、创建多项式特征(例如,基于现有特征 $x$ 添加 $x^2$)以及应用变换等方法。类别数据: 将非数值标签转换为合适的数值格式的有效编码策略。文本数据: 以数值形式表示文本供模型使用的基本方法。我们也将讨论如何管理特征数量,内容包括使用主成分分析(PCA)进行降维,以及基于统计显著性选择最相关特征的方法。目标是构建一个优化过的特征集合,它能有效捕捉潜在规律,供您的预测模型使用。实践练习将使您能够应用这些方法来准备数据以进行模型构建。