趋近智
在机器学习中,一类常见的问题涉及训练计算机将事物分到不同的组或类别中。这项任务称为分类。可以把它想象成一个数字分院帽:你提供一些信息(一个输入),模型会告诉你该输入属于哪个预设类别。
分类模型的目的是学习从输入特征(数据的特点)到特定输出标签(常称为类别)的映射。这些标签代表离散、不同的类别。
你经常遇到分类问题,可能都没有意识到:
垃圾邮件或非垃圾邮件(正常邮件)。这些是两种可能的类别。猫、狗或鸟。疾病或未患病。积极、消极或中性。在每种情况下,模型的输出都是从有限的可能性集合中选出的特定类别标签。
从宏观上看,分类模型从已知正确类别的数据中学习模式(这称为标注训练数据)。例如,要构建一个垃圾邮件检测器,我们会向模型展示许多电子邮件示例,每封都已标记为垃圾邮件或非垃圾邮件。模型会研究这些邮件的特征(如特定词语、发件人信誉等),并学习区分垃圾邮件与正常邮件的规则或模式。
一旦训练完成,模型可以接收一封新的、未曾见过的邮件,检查其特征,并预测它属于哪个类别。
此流程图说明了分类模型如何处理输入特征以生成预测类别标签。
将分类与回归(我们接下来会讨论)进行比较很有用。分类将数据点分配到离散类别(如垃圾邮件/非垃圾邮件、猫/狗),而回归模型则预测连续的数值(如房价、明天的温度或学生的考试分数)。输出类型(类别与数值)是根本区别。
理解分类很重要,因为评估这些模型需要特定的衡量标准。我们不仅需要知道预测是否正确,还经常需要了解模型产生的错误类型。例如,在垃圾邮件检测中,错误地将一封正常邮件分类为垃圾邮件(误报)可能比让一封垃圾邮件通过(漏报)问题更大。为分类设计的衡量标准帮助我们准确地衡量这种性能,我们将在下一章详细研究。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造