趋近智
机器学习 (machine learning)算法像人类一样,通过经验学习。但对算法来说,什么构成了“经验”?答案是数据。如果把机器学习模型比作一台引擎,那么数据就是它的燃料。没有数据,引擎就无法运行;它将无从学习。
在机器学习中,数据通常指观察结果或示例的集合。对于许多入门问题,这些数据通常以结构化格式组织,如表格或电子表格,其中每行代表一个单独的观察结果(也称为样本、实例或数据点),每列代表该观察结果的一个特定属性或特征。
假设您想构建一个系统来预测电子邮件是否为垃圾邮件。您的数据可能看起来像这样:
电子邮件数据的简单呈现。每行是一个电子邮件实例。蓝色列是用于预测的特征,红色列是模型希望学习预测的标签。
我们用这个例子来分析一下这些术语:
数据的质量和数量对机器学习项目的成功极为重要。
数据可以有多种类型,例如数值型(如温度、身高)、类别型(如颜色名称、电子邮件发件人域名)或文本型。将这些原始数据准备成适合算法的格式是机器学习过程的重要组成部分,我们将在第 6 章“准备数据”中讨论。
目前,最重要的一点是数据构成了构建机器学习模型的基础。理解数据的结构方式,包括特征和标签之间的区别,是理解这些模型如何学习的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•