趋近智
无监督学习 (supervised learning) (unsupervised learning)构成了许多表征学习方法(包括自编码器)得以建立的根基。与依赖有标签数据(输入-输出对)训练模型进行预测或分类的监督学习不同,无监督学习算法处理的数据集只包含输入特征 ,而没有对应的目标变量 。它的主要目标是找出数据本身固有的结构、模式或关联。
总体目标是对数据的底层结构或分布进行建模。这可以通过以下几种方式体现:
无监督学习算法处理无标签输入数据,以找出底层模式(例如簇或流形),从而得到一个结构化的表征。
自编码器本质上是无监督神经网络 (neural network)。它们通过尝试复现其输入来学习。核心组成部分包括一个将输入 映射到潜在表征 的 编码器,以及一个从 重建输入 的 解码器。模型的训练目标是最小化 重建损失,这通常是 和 之间的差异,例如均方误差:
由于网络仅用输入数据 进行训练,而没有关联的标签 ,它完全遵循无监督方法运行。其中重要的部分是 瓶颈 层,在这里,潜在表征 的维度通常低于输入 。这迫使编码器学习一个压缩表征,该表征能捕获数据分布中最重要的变异和结构,以便解码器进行准确重建。这种压缩和重建过程是一种自监督学习 (self-supervised learning)形式,它是无监督学习的一个子集,其监督信号源自数据本身。
自编码器学到的潜在表征 就是 学到的表征。这个表征的质量决定了自编码器执行其主要任务(重建)的效果,以及 对于分类、生成或异常检测等下游任务的有用程度。因此,有效的无监督学习 (supervised learning) (unsupervised learning)旨在找到具有以下特点的表征:
"正如章引言中提到的,像PCA这样的传统线性方法进行无监督降维。然而,它们假定数据位于或接近线性子空间。许多数据集,例如图像或自然语言,呈现出复杂的非线性结构(流形)。基于深度学习 (deep learning)的无监督方法,如自编码器,具有更大的灵活性,能够学习这些复杂的非线性表征。理解无监督学习的基本原理、从无标签数据中学习、识别结构以及找到信息丰富表征的目标,为领会我们在本课程中将审查的各种自编码器架构的设计和功能提供了必要的背景。"
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•