趋近智
机器学习模型从接收到的特征中学习规律。虽然前一章侧重于数据获取与清洗,但原始属性本身通常不以最有利于算法的格式呈现。本章专注于特征工程:它是一种做法,采用专业知识和特定方法来创建输入变量,以帮助机器学习算法获得更好表现。
您将学习从各类数据类型生成新特征的实用方法:
我们也将讨论如何管理特征数量,内容包括使用主成分分析(PCA)进行降维,以及基于统计显著性选择最相关特征的方法。目标是构建一个优化过的特征集合,它能有效捕捉潜在规律,供您的预测模型使用。实践练习将使您能够应用这些方法来准备数据以进行模型构建。
2.1 从数值数据生成特征
2.2 高效编码类别变量
2.3 从文本数据生成特征
2.4 交互项与多项式特征
2.5 PCA降维
2.6 使用统计方法选择特征
2.7 实践:特征创建与选择
© 2026 ApX Machine Learning用心打造