之前的章节主要处理需要有标签数据的监督学习任务,但许多数据集没有明确的目标变量。本章将介绍无监督学习,这是一系列用于在无标签数据中发现其内在结构、模式和关联的技术。您将学习如何应用以下实用方法:聚类: 使用K-Means算法和基于密度的DBSCAN方法,将相似数据点归为一类。异常检测: 识别明显偏离常规的异常或离群数据点。降维以便于可视化: 应用诸如主成分分析 (PCA) 和 t-分布随机邻居嵌入 (t-SNE) 等技术,减少特征数量,以方便高维数据集的可视化。通过实际案例和动手练习,您将获得应用这些无监督方法来分析和理解无需预设标签数据的经验。