趋近智
原始数据通常不适合直接输入到机器学习算法中。模型需要干净、格式正确的数值数据才能有效运行。本章介绍将原始数据集转换为适用于模型训练的格式的重要技术。
你将了解典型机器学习项目中的标准步骤,特别是数据准备阶段。我们将介绍以下实用方法:
在本章结束时,你将能够使用 Pandas 和 Scikit-learn 等 Python 库应用这些预处理技术,从而有效准备机器学习任务所需的数据。
5.1 机器学习工作流程概览
5.2 特征工程原理
5.3 处理分类数据
5.4 特征缩放和标准化方法
5.5 将数据划分为训练集和测试集
5.6 Scikit-learn 管道介绍
5.7 保持数据变换的一致性
5.8 实践:构建数据准备管道
© 2026 ApX Machine Learning用心打造