数据集经常包含重复的条目。这些重复项(即相同信息多次出现)可能导致分析结果不准确,并影响模型性能。本章将介绍处理重复数据的方法。您将学习如何:定义在不同情境下什么构成重复记录。找到完全匹配的条目,或仅在特定列上匹配的条目。了解移除重复数据的原因。使用标准工具高效地移除这些冗余记录。我们将在实际练习中使用样本数据来应用这些技术。