如本章引言所述,理解每列中存储的数据类型非常重要。计算机和软件工具需要这些信息才能正确执行操作。想象一下,如果价格以文本形式(如'$$19.99$')而不是数字形式存储,您将无法计算平均价格;或者如果日期被视为普通文本字符串(如'Jan 1st'),您将难以按时间顺序排序事件。使用错误的数据类型可能导致错误、不正确的计算和误导性的结果。下面我们来看看处理数据集时最常见的数据类型:数值类型这些代表数值,对于数学计算必不可少。整数 (int): 这些是整数,可以是正数或负数,没有小数点。可以想成计数、索引或离散数量。示例: 10, -5, 0, 1024浮点数 (float): 这些代表实数,包括带小数点的数字。它们用于测量、百分比或任何需要超出整数精度的值。示例: 3.14, -0.5, 98.6, 2.71828您可以对数值类型执行加法、减法、乘法和除法等算术运算。如果$5 + 10$都是数值,它们的相加会如预期一样;但如果'5'存储为文本,该操作可能会失败或产生意想不到的结果,例如文本连接('510')。字符串类型 (str)字符串代表文本数据。它们是用引号(单引号 ' ' 或双引号 " ")括起来的字符序列。任何内容都可以表示为字符串,包括名称、地址、描述、代码,甚至是不打算用于计算的数字(如邮政编码或ID号)。示例: 'Hello World', "Data Science", '123 Main St', "ID-9876", 'True' (注意:是单词'True',不是布尔值), '2023-10-26' (表示为文本的日期)虽然字符串可以包含数字,但它们被视为文本字符,而非数值。数学运算通常不直接以数值意义应用于字符串。布尔类型 (bool)布尔值代表真值,表示两种状态之一:真或假。它们在逻辑、比较和控制流中非常重要。值: True, False这些通常来自比较(例如,price > 100吗?)或代表二元状态(例如,is_subscribed,email_verified)。日期时间类型这些专门类型代表日期、时间或两者。以正确的日期时间格式存储日期和时间,可以进行按时间顺序排序、计算持续时间、提取组成部分(如年、月、日、小时)以及执行基于时间的分析。如果日期以字符串形式存储('October 26, 2023', '26/10/2023'),那么不进行转换,这些操作就会变得困难得多甚至不可能。示例: 2023-10-26 (日期), 14:30:00 (时间), 2023-10-26 14:30:00 (日期时间)分类类型虽然有时最初表示为字符串,但分类数据代表属于固定、有限数量的类别或组的变量。示例包括用户评分('低'、'中'、'高')、产品类型('电子产品'、'服装'、'杂货')或调查响应('同意'、'中立'、'不同意')。识别这些有时可以优化存储和分析,尽管对于基本清理,处理它们通常涉及确保字符串表示的一致性。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style="filled,rounded"]; edge [color="#495057"]; "数据类型" -> "数值"; "数据类型" -> "字符串"; "数据类型" -> "布尔"; "数据类型" -> "日期时间"; "数值" -> "整数" [color="#1c7ed6"]; "数值" -> "浮点数" [color="#1c7ed6"]; "字符串" [label="字符串 (文本)", color="#f76707", fillcolor="#ffd8a8"]; "布尔" [label="布尔 (真/假)", color="#ae3ec9", fillcolor="#eebefa"]; "日期时间" [label="日期时间 (日期/时间)", color="#1098ad", fillcolor="#99e9f2"]; "整数" [label="整数 (整型数字)\n例如, 10, -5", color="#1c7ed6", fillcolor="#a5d8ff"]; "浮点数" [label="浮点数 (小数数字)\n例如, 3.14, 98.6", color="#1c7ed6", fillcolor="#a5d8ff"]; }数据集中常见数据类型的一种分类。理解这些基本类型是第一步。在后续章节中,我们将了解如何检查数据集中当前的数据类型,更重要的是,如何将列转换为其正确类型,以确保您的数据已准备好进行可靠分析。