在之前的章节中,您了解了监督学习。在那些情况下,我们拥有的数据集中的每个示例都带有已知答案或“标签”。例如,我们有房屋特征以及它们的价格(用于回归),或者有电子邮件以及它们是否是垃圾邮件(用于分类)。机器学习模型的任务是学习从输入特征到正确输出标签的映射。现在,我们进入机器学习的一个不同部分:无监督学习。当您拥有数据,但没有预定义的标签或正确答案时,会发生什么?想象一下,您获得了一大批客户信息,但没有任何现有类别,比如“高价值”或“可能流失”。又或者,您有数千篇新闻文章,但没有预先分配的主题。这就是无监督学习发挥作用的地方。无监督学习算法处理无标签数据。它们的目标不是根据过去的示例预测特定输出,而是找到输入数据本身中有意思的结构、模式、关系或分组。您可以将其看作是让算法自行检查数据,然后告诉您它发现了什么有意思的东西。目标:发现隐藏的结构监督学习是一种机器学习方法,其目标是学习从特征 $X$ 到标签 $Y$ 的映射。与此不同,无监督学习算法尝试直接学习数据 $X$ 的内在结构。常见目标包括:寻找群组(聚类): 自动将数据划分成不同的群组,其中群组内的项目彼此之间比与其他群组中的项目更相似。本章主要介绍聚类,特别是使用K-Means算法。例如,根据购买行为对客户进行聚类,以识别不同的市场细分。降低复杂度(降维): 通过减少特征(维度)数量来简化数据,同时尝试保留最重要的信息。这可用于可视化,或作为其他机器学习任务的预处理步骤。寻找关联(关联规则挖掘): 发现大型数据集中的项目之间有意思的关系或规则。一个经典示例是“购物篮分析”,它能发现类似“购买尿布的顾客也经常购买啤酒”的规则。识别异常值(异常检测): 找到与其余数据明显不同的数据点。这对于欺诈检测或识别设备故障读数等任务很有帮助。一个类比:整理无标签物品想象您收到一个装有许多不同类型纽扣的大盒子,全部混在一起。您没有标签告诉您每个纽扣属于哪种类型。在无监督方法中,您可能会开始根据可观察的特征对其进行分类:您可以根据颜色对其进行分组(所有红色纽扣放在一起,所有蓝色纽扣放在一起,等等)。您可以根据大小对其进行分组(小、中、大)。您可以根据孔的数量对其进行分组(两个孔,四个孔)。您在发现底层结构(根据颜色、大小或孔洞形成群组),而没有任何预先的标签告诉您它们应该如何分组。这就是无监督学习的实质,特别是聚类。为什么要使用无监督学习?无监督学习在几种情况下是一种有价值的工具:数据检查: 当您首次接触数据集时,无监督方法可以帮助您理解其结构并识别您未曾注意到的潜在模式。缺少标签数据: 为大型数据集获取准确标签可能昂贵、耗时,有时甚至不可能。无监督学习直接处理原始的无标签数据。特征工程: 降维等技术可以帮助创建更有意义或更紧凑的特征,这有时可以提高后续监督学习模型的性能。直接应用: 客户细分、异常检测或主题建模等任务本质上是无监督问题。在本章中,我们将集中于聚类,这是一项基础的无监督任务。您将了解K-Means,这是一种流行的算法,用于自动将您的数据点分组到指定数量的簇中。