正如我们在前一节中阐述的,数据是机器学习不可或缺的材料。但这些数据具体由什么构成呢?在机器学习中谈及数据集时,我们通常指一系列样本,每个样本都由其特性或属性来描述。这些特性可分为两个基本组成部分:特征和标签。特征:输入或预测量可以把特征看作是你所观察现象的单个、可测量的属性或特性。它们是你输入到机器学习模型中以进行预测或发现规律的输入。每个特征代表着关于单个数据点或样本的一条信息。考虑以下情况:预测房价: 如果你想预测房屋的价格,你的特征可能包括其面积(平方英尺)、卧室数量、浴室数量、房龄,以及可能与市中心的距离。这些(面积、卧室、浴室、房龄、距离)每一个都是一个特征。识别垃圾邮件: 要将一封邮件归类为垃圾邮件或非垃圾邮件,特征可以是发件人的电子邮件地址、某些关键词(如“优惠”、“免费”、“中奖”)的存在、使用的大写字母数量,或者邮件是否包含附件。识别手写数字: 对于一个从图像中识别手写数字的系统,特征可能是图像网格中单个像素的值。特征通常在电子表格或数据库表中表示为列,其中每行对应一个样本(如一所具体的房屋、一封邮件或一张图像)。它们可以是数值型(如面积或像素值)或类别型(如发件人的域名或关键词的有无)。你可能还会听到与特征互换使用的其他术语包括:预测量输入属性自变量标签:输出或目标标签(或目标)是你试图用机器学习模型预测的具体事物。它是你希望模型学习与输入特征关联起来的“答案”或结果。标签主要与监督学习相关联,这是我们稍后会更详细讨论的一种机器学习类型,其数据集中包含每个输入样本的正确输出。模型通过将其预测与这些已知标签进行比较来学习。我们再来看一下之前的例子:预测房价: 标签将是房屋的实际售价(例如,$350,000)。这是一个回归问题,因为标签是一个连续数值。识别垃圾邮件: 标签将是邮件的分类,可能表示为“垃圾邮件”或“非垃圾邮件”(有时也用数字1代表垃圾邮件,0代表非垃圾邮件)。这是一个分类问题,因为标签属于一个离散的类别集合。识别手写数字: 每张图像的标签将是它所代表的实际数字(0、1、2、...、9)。这同样是一个分类问题。在用于监督学习的数据集中,标签通常表示为独立于特征列的一个专门的列。标签的常见同义词包括:目标变量输出响应因变量类别(特别是在分类问题中)特征与标签结合监督学习中的主要目标是使用特征来预测标签。模型根据训练数据中提供的样本,学习将输入特征与输出标签连接起来的潜在关系或规律。下面是预测房价的小型数据集中特征和标签可能如何呈现的简化视图:样本ID面积(平方英尺)(特征1)卧室数量(特征2)房龄(年)(特征3)价格(美元)(标签)115003103500002210045480000312002252900004180038410000一个简单的表格表示,展示了由特征(输入列)和相应标签(输出列)描述的样本(行)。在此表中:每行是一个样本(一所具体房屋)。“面积(平方英尺)”、“卧室数量”和“房龄(年)”列是特征。“价格(美元)”列是标签。机器学习模型会用这些数据(或更多类似数据)进行训练,以学习面积、卧室数量和房龄如何与最终价格相关联。一旦训练好,你可以向模型提供一所新房屋的特征(例如,1600平方英尺,3间卧室,12年房龄),它将预测出标签(可能的价格)。需要注意的是,并非所有机器学习任务都涉及标签。在无监督学习中,目标通常是仅基于特征在数据中找出结构或规律,而不依赖任何预设的正确答案。我们稍后将更详细地介绍不同类型的学习类型。理解特征和标签之间的区别是基本的。这有助于你正确地设定问题、恰当地准备数据,并选择合适的机器学习算法。当有人提供数据集时,最初的步骤之一通常是识别哪些列代表输入特征,以及(如果有的话)哪一列代表你想要预测的目标标签。