趋近智
机器学习模型很少能直接处理原始数据并取得好效果。实际数据集通常包含不一致、缺失值以及度量尺度差异大或非数值格式的特征。许多算法要求数据干净、数值化并进行适当缩放以达到最佳表现。例如,计算点之间距离的算法(如K近邻)或使用梯度下降优化的算法(如带正则化的线性回归)对输入特征的尺度很敏感。同样,大多数算法需要数值输入,因此有必要将分类文本数据转换为合适的格式。
本章侧重介绍使用Scikit-learn工具进行数据准备的重要技术。您将学习如何:
掌握这些预处理步骤,对于构建有效的机器学习模型非常重要。我们将学习Scikit-learn的变换器API,以便高效地应用这些技术。
4.1 数据预处理的重要性
4.2 特征缩放技术
4.3 在Scikit-learn中应用缩放器
4.4 分类特征编码
4.5 在Scikit-learn中应用编码器
4.6 处理缺失值
4.7 在Scikit-learn中使用填充器
4.8 动手实践:数据预处理
© 2026 ApX Machine Learning用心打造