让我们把理论付诸实践。你已经学过查找数据来源以及数据准备的重要性。现在,我们将逐步介绍实际加载数据集并初步查看它的基本步骤。可以把这看作是收到包裹后拆开包装盒——在开始使用前,你需要确认物品是否都在里面,并对内容有个大致的了解。准备阶段:数据集假设有一个以常见格式(如逗号分隔值(CSV)文件)存储的简单数据集。CSV文件是纯文本文件,数据按行组织,每行中的值用逗号分隔。假设文件名为simple_sales.csv,其中包含产品销售的基本信息。simple_sales.csv文件中的原始数据可能如下所示:Product,Category,Price,QuantitySold Apple,Fruit,0.50,150 Banana,Fruit,0.30,250 Carrot,Vegetable,0.20,180 Broccoli,Vegetable,1.50,90 Orange,Fruit,0.60,120这是一种典型的结构:第一行包含标题或列名(Product、Category、Price、QuantitySold)。每一后续行代表一条记录或行,对应一种产品。每行中的值由逗号分隔。步骤1:数据加载第一步是将这些数据“加载”或“导入”到您可能用于分析的任何环境中。这可能是一个电子表格程序(如Microsoft Excel或Google Sheets),或一个数据分析工具或库(如Python中的pandas,尽管我们在这里不使用具体的代码)。这个过程包括:将工具指向文件: 您通常会使用“打开”或“导入”命令并选择simple_sales.csv文件。指定格式(如果需要): 通常,工具可以猜测它是CSV文件。有时您可能需要确认一些细节,比如分隔符(这里是逗号,即分隔值的字符)以及第一行是否包含标题。执行: 工具读取文件并在内部表示数据,通常是以表格形式。完成此步骤后,数据不再仅仅是文件中的文本;它已在您的分析环境中结构化,可以进行查看了。步骤2:初步查看 - 第一次查看数据加载后,紧接着的下一步是进行一些基本检查。这有助于确认数据是否正确加载,并让您初步了解其内容。查看前几行(头部)大多数工具都提供查看数据集开头或“头部”的方式。这通常显示前5或10行。查看我们的simple_sales数据的头部会显示如下内容:产品类别价格销售数量AppleFruit0.50150BananaFruit0.30250CarrotVegetable0.20180BroccoliVegetable1.5090OrangeFruit0.60120为什么这样做?验证加载: 确认文件是否正确读取,并且看起来像一个表格。检查标题: 确保列名正确导入。样本内容: 立即了解每列中数据的类型。检查维度了解数据集的大小很有用:它有多少行和多少列。对于我们的小例子:行数: 5(不包括标题行)- 代表5种不同的产品。列数: 4 - 代表每种产品测量的不同属性。为什么这样做?规模: 了解您正在处理的数据量。它是小(像我们的例子)还是非常大?完整性: 确认加载的数据是否符合预期(例如,如果您预期有1000行,但只看到50行,那么可能出了问题)。检查列名和数据类型仔细查看列标题及其中的数据。Product:包含文本字符串(产品名称)。这看起来是定性数据。Category:包含文本字符串(产品类型)。也是定性数据。Price:包含带小数的数字(货币值)。这是定量(具体来说,是连续)数据。QuantitySold:包含整数(计数)。这是定量(具体来说,是离散)数据。为什么这样做?理解特征: 明确每列代表什么。数据类型检查: 确认工具是否正确解释了数据类型(例如,数字是否作为数字存储,还是错误地作为文本存储?)。不正确的数据类型会在后续分析中引起问题。有时,如果存在意外字符(如“$”符号),一列数字可能会被作为文本导入。我们学到了什么通过执行这些简单的数据加载和查看步骤,我们已经:成功地将数据从文件导入到可用格式。验证了结构(行、列、标题)。对数据的内容和规模有了基本了解。识别了每列中数据的类型。这个实践步骤是数据准备的入口。加载并初步查看数据后,您现在能更好地进入本章讨论的下一阶段,例如处理缺失值(尽管我们的简单示例没有)或识别异常值,这些都是在进行任何有意义的分析之前有必要的。