趋近智
如本章引言所述,理解每列中存储的数据类型非常重要。计算机和软件工具需要这些信息才能正确执行操作。想象一下,如果价格以文本形式(如'\19.99$')而不是数字形式存储,您将无法计算平均价格;或者如果日期被视为普通文本字符串(如'Jan 1st'),您将难以按时间顺序排序事件。使用错误的数据类型可能导致错误、不正确的计算和误导性的结果。
下面我们来看看处理数据集时最常见的数据类型:
这些代表数值,对于数学计算必不可少。
10, -5, 0, 10243.14, -0.5, 98.6, 2.71828您可以对数值类型执行加法、减法、乘法和除法等算术运算。如果5+10都是数值,它们的相加会如预期一样;但如果'5'存储为文本,该操作可能会失败或产生意想不到的结果,例如文本连接('510')。
字符串代表文本数据。它们是用引号(单引号 ' ' 或双引号 " ")括起来的字符序列。任何内容都可以表示为字符串,包括名称、地址、描述、代码,甚至是不打算用于计算的数字(如邮政编码或ID号)。
'Hello World', "Data Science", '123 Main St', "ID-9876", 'True' (注意:是单词'True',不是布尔值), '2023-10-26' (表示为文本的日期)虽然字符串可以包含数字,但它们被视为文本字符,而非数值。数学运算通常不直接以数值意义应用于字符串。
布尔值代表真值,表示两种状态之一:真或假。它们在逻辑、比较和控制流中非常重要。
True, False这些通常来自比较(例如,price > 100吗?)或代表二元状态(例如,is_subscribed,email_verified)。
这些专门类型代表日期、时间或两者。以正确的日期时间格式存储日期和时间,可以进行按时间顺序排序、计算持续时间、提取组成部分(如年、月、日、小时)以及执行基于时间的分析。如果日期以字符串形式存储('October 26, 2023', '26/10/2023'),那么不进行转换,这些操作就会变得困难得多甚至不可能。
2023-10-26 (日期), 14:30:00 (时间), 2023-10-26 14:30:00 (日期时间)虽然有时最初表示为字符串,但分类数据代表属于固定、有限数量的类别或组的变量。示例包括用户评分('低'、'中'、'高')、产品类型('电子产品'、'服装'、'杂货')或调查响应('同意'、'中立'、'不同意')。识别这些有时可以优化存储和分析,尽管对于基本清理,处理它们通常涉及确保字符串表示的一致性。
数据集中常见数据类型的一种分类。
理解这些基本类型是第一步。在后续章节中,我们将了解如何检查数据集中当前的数据类型,更重要的是,如何将列转换为其正确类型,以确保您的数据已准备好进行可靠分析。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造