趋近智
处理了缺失和重复数据后,我们现在关注确保数据以正确的格式存储,即其数据类型。数据分析工具和算法非常依赖数据类型。尝试对存储为文本的数据进行加法等数学运算,或者对被视为简单字符串的日期进行排序,可能导致错误或产生不可靠的结果。例如,如果 '5' 是文本而不是数字,像 5+10 这样的操作会有不同的表现。
本章介绍数据集中常见的数据类型,例如数值型(如整数 100,浮点数 98.6)、字符串(文本)、布尔型(True/False)和日期时间格式。您将学习如何检查分配给数据列的当前类型,并且,重要的是,如何将它们转换为适当的格式。我们将介绍将数据转换为数值、日期时间以及字符串或类别类型的技术,包括处理转换过程中可能出现问题的方法。正确设置数据类型是准确分析和为后续任务做准备的必要一步。
4.1 数据集中的常见数据类型
4.2 为什么正确的数据类型很重要
4.3 识别不正确的数据类型
4.4 转换为数字类型 (整数, 浮点数)
4.5 处理数值转换中的错误
4.6 转换为日期时间类型
4.7 转换为分类或字符串类型
4.8 数据类型修正:动手实践
© 2026 ApX Machine Learning用心打造