趋近智
实际数据集经常不完整。机器学习 (machine learning)算法通常无法直接处理缺失值,因此数据预处理是必需的第一步。本章介绍管理缺失数据的方法。
您将学习使用 Pandas 识别数据中缺失项的方法。我们将考察导致数据缺失的常见原因,例如完全随机缺失 (MCAR)、随机缺失 (MAR) 和非随机缺失 (MNAR)。然后着重介绍实际的填补策略,从均值、中位数和众数填补等简单方法开始。您还将学习创建指示特征,以保留缺失值原始位置的信息。更高级的方法,包括 Scikit-learn 中的 K-近邻 (KNN) 填补器和迭代填补器,将用于多元填补。最后,我们将比较这些不同的方法,以帮助您选择适用于您具体情况的策略。本章包含应用这些方法的实践练习。
2.1 识别缺失值
2.2 缺失数据机制 (MCAR, MAR, MNAR)
2.3 简单填充策略:均值、中位数、众数
2.4 创建缺失值指示器
2.5 多变量填充:KNN填充器
2.6 多元插补:迭代插补器
2.7 比较插补方法
2.8 动手实践:填充缺失数据
© 2026 ApX Machine Learning用心打造