在机器学习中,一类常见的问题涉及训练计算机将事物分到不同的组或类别中。这项任务称为分类。可以把它想象成一个数字分院帽:你提供一些信息(一个输入),模型会告诉你该输入属于哪个预设类别。分类模型的目的是学习从输入特征(数据的特点)到特定输出标签(常称为类别)的映射。这些标签代表离散、不同的类别。分类常见例子你经常遇到分类问题,可能都没有意识到:电子邮件垃圾邮件检测:电子邮件服务会查看邮件内容、发件人及其他特征,并将其归类为垃圾邮件或非垃圾邮件(正常邮件)。这些是两种可能的类别。图像识别:模型分析图像并根据其内容进行分类,例如识别图片中是否包含猫、狗或鸟。医学诊断:根据患者症状和检测结果(特征),模型可能会分类患者是否患有某种疾病或未患病。情感分析:分析一段文本(例如产品评论)以将其表达的情感分类为积极、消极或中性。在每种情况下,模型的输出都是从有限的可能性集合中选出的特定类别标签。分类模型如何运作从宏观上看,分类模型从已知正确类别的数据中学习模式(这称为标注训练数据)。例如,要构建一个垃圾邮件检测器,我们会向模型展示许多电子邮件示例,每封都已标记为垃圾邮件或非垃圾邮件。模型会研究这些邮件的特征(如特定词语、发件人信誉等),并学习区分垃圾邮件与正常邮件的规则或模式。一旦训练完成,模型可以接收一封新的、未曾见过的邮件,检查其特征,并预测它属于哪个类别。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style=filled]; edge [color="#495057"]; Input [label="输入数据\n(例如:邮件文本、图像像素)"]; Model [label="分类模型\n(学习到的模式)"]; Output [label="预测类别\n(例如:'垃圾邮件'、'猫'、'积极')"]; Input -> Model [label="特征"]; Model -> Output [label="预测"]; }此流程图说明了分类模型如何处理输入特征以生成预测类别标签。分类与回归将分类与回归(我们接下来会讨论)进行比较很有用。分类将数据点分配到离散类别(如垃圾邮件/非垃圾邮件、猫/狗),而回归模型则预测连续的数值(如房价、明天的温度或学生的考试分数)。输出类型(类别与数值)是根本区别。理解分类很重要,因为评估这些模型需要特定的衡量标准。我们不仅需要知道预测是否正确,还经常需要了解模型产生的错误类型。例如,在垃圾邮件检测中,错误地将一封正常邮件分类为垃圾邮件(误报)可能比让一封垃圾邮件通过(漏报)问题更大。为分类设计的衡量标准帮助我们准确地衡量这种性能,我们将在下一章详细研究。