在处理完缺失值和重复记录后,下一步是确保数据值本身保持一致。文本格式的差异,例如大小写不同('USA' 与 'usa')或不必要的空格(' value ' 与 'value'),会妨碍对数据进行有效的分组、合并和分析。同样,不一致的单位(例如同一列中出现磅和千克)也需要统一。本章将介绍通过格式化和标准化来提升数据一致性的简单方法。您将学习到以下实用方法:统一文本大小写(将其转换为大写或小写)。移除文本条目中开头和结尾的空格。应用简单的字符串替换来纠正常见的不一致之处。使用简单的算术运算进行简单单位转换。应用这些方法有助于生成更统一的数据集,这对于可靠的分析以及后续的数据处理步骤非常重要。