聚类简介

让我们来了解聚类的思想。正如我们所讨论的，无监督学习 (supervised learning) (unsupervised learning)处理的是没有预设标签或正确答案的数据。我们的目标不是预测已知结果，而是发现数据本身隐藏的结构或关联。聚类是无监督学习中一项非常常见且直观的任务。

想象一下整理大量未加标签的照片集。在不知道每张照片里是谁或在哪里拍摄的情况下，你可能会自然地开始将它们分组。室内照片可能放在一堆，室外风景照放在另一堆，肖像照放在第三堆，宠物照片放在第四堆。你正在根据它们的视觉特征，即它们的特征，将它们分组。这本质上就是聚类算法处理数据的方式。

什么是聚类？

聚类是将数据集划分成不同组（称为簇）的过程。核心思想简单而有效：

这里的“相似”意味着什么？在机器学习 (machine learning)中，数据点由其特征（例如图像中的像素值、客户的消费习惯或文档中的词频）表示。相似性通常通过数据点在这些特征定义的空间中的“接近”程度来衡量。相互接近的点被认为是相似的；相互远离的点被认为是不相似的。

想象一下根据两个特征绘制客户数据：年龄（x轴）和消费分数（y轴）。你可能会直观地看到不同的组形成。

客户数据按年龄和消费分数绘制。注意这些点如何自然地形成不同的组。聚类算法旨在自动识别这些组。

为什么要使用聚类？

聚类帮助我们找到数据中固有的分组，而无需事先了解这些分组可能代表什么。它在许多情况下都很有用，包括：

聚类使我们能够了解数据的深层结构，展示那些乍看之下可能不明显的模式。有许多不同的聚类算法，每种算法都有其优点和缺点。在接下来的章节中，我们将重点介绍一种最广泛使用且基本的聚类算法：K-均值。

参考文献

Pattern Recognition and Machine Learning, Christopher Bishop, 2006 (Springer) - 涵盖机器学习理论基础的重要教科书，包括对无监督学习和各种聚类方法的全面讨论。
Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber, and Jian Pei, 2011 (Elsevier) - 一本广泛使用的数据挖掘教科书，详细解释了聚类算法、应用和评估方法。
Machine Learning (CS229) Lecture Notes, Andrew Ng, Tengyu Ma, 2023 (Stanford University) - 知名大学机器学习课程的官方讲义，为无监督学习和聚类提供了清晰的解释和理论背景。