趋近智
在之前的章节中,您了解了监督学习。在那些情况下,我们拥有的数据集中的每个示例都带有已知答案或“标签”。例如,我们有房屋特征以及它们的价格(用于回归),或者有电子邮件以及它们是否是垃圾邮件(用于分类)。机器学习模型的任务是学习从输入特征到正确输出标签的映射。
现在,我们进入机器学习的一个不同部分:无监督学习。当您拥有数据,但没有预定义的标签或正确答案时,会发生什么?想象一下,您获得了一大批客户信息,但没有任何现有类别,比如“高价值”或“可能流失”。又或者,您有数千篇新闻文章,但没有预先分配的主题。这就是无监督学习发挥作用的地方。
无监督学习算法处理无标签数据。它们的目标不是根据过去的示例预测特定输出,而是找到输入数据本身中有意思的结构、模式、关系或分组。您可以将其看作是让算法自行检查数据,然后告诉您它发现了什么有意思的东西。
监督学习是一种机器学习方法,其目标是学习从特征 X 到标签 Y 的映射。与此不同,无监督学习算法尝试直接学习数据 X 的内在结构。常见目标包括:
想象您收到一个装有许多不同类型纽扣的大盒子,全部混在一起。您没有标签告诉您每个纽扣属于哪种类型。在无监督方法中,您可能会开始根据可观察的特征对其进行分类:
您在发现底层结构(根据颜色、大小或孔洞形成群组),而没有任何预先的标签告诉您它们应该如何分组。这就是无监督学习的实质,特别是聚类。
无监督学习在几种情况下是一种有价值的工具:
在本章中,我们将集中于聚类,这是一项基础的无监督任务。您将了解K-Means,这是一种流行的算法,用于自动将您的数据点分组到指定数量的簇中。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造