趋近智
正如我们在前一节中阐述的,数据是机器学习 (machine learning)不可或缺的材料。但这些数据具体由什么构成呢?在机器学习中谈及数据集时,我们通常指一系列样本,每个样本都由其特性或属性来描述。这些特性可分为两个基本组成部分:特征和标签。
可以把特征看作是你所观察现象的单个、可测量的属性或特性。它们是你输入到机器学习 (machine learning)模型中以进行预测或发现规律的输入。每个特征代表着关于单个数据点或样本的一条信息。
考虑以下情况:
特征通常在电子表格或数据库表中表示为列,其中每行对应一个样本(如一所具体的房屋、一封邮件或一张图像)。它们可以是数值型(如面积或像素值)或类别型(如发件人的域名或关键词的有无)。
你可能还会听到与特征互换使用的其他术语包括:
标签(或目标)是你试图用机器学习 (machine learning)模型预测的具体事物。它是你希望模型学习与输入特征关联起来的“答案”或结果。
标签主要与监督学习 (supervised learning)相关联,这是我们稍后会更详细讨论的一种机器学习类型,其数据集中包含每个输入样本的正确输出。模型通过将其预测与这些已知标签进行比较来学习。
我们再来看一下之前的例子:
在用于监督学习的数据集中,标签通常表示为独立于特征列的一个专门的列。
标签的常见同义词包括:
监督学习 (supervised learning)中的主要目标是使用特征来预测标签。模型根据训练数据中提供的样本,学习将输入特征与输出标签连接起来的潜在关系或规律。
下面是预测房价的小型数据集中特征和标签可能如何呈现的简化视图:
| 样本ID | 面积(平方英尺)(特征1) | 卧室数量(特征2) | 房龄(年)(特征3) | 价格(美元)(标签) |
|---|---|---|---|---|
| 1 | 1500 | 3 | 10 | 350000 |
| 2 | 2100 | 4 | 5 | 480000 |
| 3 | 1200 | 2 | 25 | 290000 |
| 4 | 1800 | 3 | 8 | 410000 |
一个简单的表格表示,展示了由特征(输入列)和相应标签(输出列)描述的样本(行)。
在此表中:
机器学习 (machine learning)模型会用这些数据(或更多类似数据)进行训练,以学习面积、卧室数量和房龄如何与最终价格相关联。一旦训练好,你可以向模型提供一所新房屋的特征(例如,1600平方英尺,3间卧室,12年房龄),它将预测出标签(可能的价格)。
需要注意的是,并非所有机器学习任务都涉及标签。在无监督学习 (unsupervised learning)中,目标通常是仅基于特征在数据中找出结构或规律,而不依赖任何预设的正确答案。我们稍后将更详细地介绍不同类型的学习类型。
理解特征和标签之间的区别是基本的。这有助于你正确地设定问题、恰当地准备数据,并选择合适的机器学习算法。当有人提供数据集时,最初的步骤之一通常是识别哪些列代表输入特征,以及(如果有的话)哪一列代表你想要预测的目标标签。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•