趋近智
数据是数据科学的原始材料。可以把它看作是为分析而收集的事实、数字、观察结果、符号或描述的集合。在我们获取见解或构建模型之前,首先需要了解我们正在处理的是什么。
从根本上讲,数据代表着信息片段。但在数据科学的背景下,我们通常认为数据是任何可以被数字化记录、存储和处理的事物。它不仅仅是电子表格中的数字,尽管那是一种常见形式。数据可以多种多样:
考虑一个简单例子:追踪一家小型网店的销售情况。数据可能包括:
每条信息,例如“Alice Smith”、“笔记本电脑包”、“49.99”、“2023-10-26 14:30:05”、“New York”,都是一个数据点或观察值。当我们收集许多此类相关观察值时,通常会将它们组织成一个数据集。通常,这个数据集采用表格形式,其中行代表单个记录(如单次购买),列代表不同的属性或特征(如客户姓名、商品、价格)。
客户ID | 姓名 | 商品 | 价格 | 购买日期
-----------|-------------|--------------|-------|--------------------
101 | Alice Smith | Laptop Bag | 49.99 | 2023-10-26 14:30:05
102 | Bob Johnson | USB Cable | 12.50 | 2023-10-26 15:01:22
101 | Alice Smith | Mouse | 25.00 | 2023-10-27 09:15:10
... | ... | ... | ... | ...
一个表示客户购买情况的简单表格数据集。
区分原始数据和信息很重要。原始数据,比如数字 101,独立来看可能意义不大。只有当我们赋予它背景时,它才成为信息。知道 101 代表“Alice Smith”的 客户ID 使其具有意义。数据科学通常涉及将原始数据转换为有用的信息,并最终转化为可操作的见解。
了解什么是数据是重要的第一步。识别其各种形式使你能够思考如何组织、清理和分析它,这些是我们接下来会介绍的主题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造