趋近智
让我们把理论付诸实践。你已经学过查找数据来源以及数据准备的重要性。现在,我们将逐步介绍实际加载数据集并初步查看它的基本步骤。可以把这看作是收到包裹后拆开包装盒——在开始使用前,你需要确认物品是否都在里面,并对内容有个大致的了解。
假设有一个以常见格式(如逗号分隔值(CSV)文件)存储的简单数据集。CSV文件是纯文本文件,数据按行组织,每行中的值用逗号分隔。假设文件名为simple_sales.csv,其中包含产品销售的基本信息。
simple_sales.csv文件中的原始数据可能如下所示:
Product,Category,Price,QuantitySold
Apple,Fruit,0.50,150
Banana,Fruit,0.30,250
Carrot,Vegetable,0.20,180
Broccoli,Vegetable,1.50,90
Orange,Fruit,0.60,120
这是一种典型的结构:
Product、Category、Price、QuantitySold)。第一步是将这些数据“加载”或“导入”到您可能用于分析的任何环境中。这可能是一个电子表格程序(如Microsoft Excel或Google Sheets),或一个数据分析工具或库(如Python中的pandas,尽管我们在这里不使用具体的代码)。
这个过程包括:
simple_sales.csv文件。完成此步骤后,数据不再仅仅是文件中的文本;它已在您的分析环境中结构化,可以进行查看了。
数据加载后,紧接着的下一步是进行一些基本检查。这有助于确认数据是否正确加载,并让您初步了解其内容。
大多数工具都提供查看数据集开头或“头部”的方式。这通常显示前5或10行。
查看我们的simple_sales数据的头部会显示如下内容:
| 产品 | 类别 | 价格 | 销售数量 |
|---|---|---|---|
| Apple | Fruit | 0.50 | 150 |
| Banana | Fruit | 0.30 | 250 |
| Carrot | Vegetable | 0.20 | 180 |
| Broccoli | Vegetable | 1.50 | 90 |
| Orange | Fruit | 0.60 | 120 |
为什么这样做?
了解数据集的大小很有用:它有多少行和多少列。对于我们的小例子:
为什么这样做?
仔细查看列标题及其中的数据。
Product:包含文本字符串(产品名称)。这看起来是定性数据。Category:包含文本字符串(产品类型)。也是定性数据。Price:包含带小数的数字(货币值)。这是定量(具体来说,是连续)数据。QuantitySold:包含整数(计数)。这是定量(具体来说,是离散)数据。为什么这样做?
通过执行这些简单的数据加载和查看步骤,我们已经:
这个实践步骤是数据准备的入口。加载并初步查看数据后,您现在能更好地进入本章讨论的下一阶段,例如处理缺失值(尽管我们的简单示例没有)或识别异常值,这些都是在进行任何有意义的分析之前有必要的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造