数据是任何分析或机器学习项目的起点,但原始数据通常伴随问题。错误、缺失值和不一致性可能严重扭曲结果,并损害任何得出结论的可靠性。本章将介绍数据清洗和预处理的基本认识。您将学到:数据清洗和预处理具体指什么。数据变得不准确或“脏”的常见方式。使用低质量数据进行分析或建模的后果。清洗过程中的主要步骤概览。理解这些基本要点是为您的项目准备可靠数据的第一步。