直接比较稀疏自编码器(Sparse AE)、去噪自编码器(DAE)和收缩自编码器(CAE),以理解它们的优势、劣势和适合的使用场景。每种技术都为基本的自编码器目标引入了一种正则化形式,引导模型学习到更有效且抗干扰的表示。自编码器中正则化的核心思想是阻止模型学习恒等函数(尤其当隐藏维度不小于输入维度时)或对训练数据过拟合,这会导致泛化能力差,并且表示未能捕捉数据的基础结构。稀疏自编码器、去噪自编码器和收缩自编码器通过不同的机制实现此目的。机制与目标稀疏自编码器(Sparse AE):这些自编码器对隐藏层单元的激活值施加稀疏性约束。这通常通过向损失函数中添加激活值的$L_1$惩罚(鼓励许多激活值精确为零),或者添加一个KL散度项(将每个隐藏单元的平均激活值推向一个小的期望值,例如0.05)来实现。目标:学习表示,这些表示在任何给定输入下,仅激活少数特征。这促使网络找到专有、可能更具可解释性的特征,在某种程度上类似于特征选择。它以数据依赖的方式限制模型的容量。去噪自编码器(DAE):去噪自编码器通过损坏输入数据(例如,添加高斯噪声、遮盖条目)并训练自编码器从该损坏版本重构原始、干净的输入来工作。重构损失在解码器输出与未损坏数据之间计算。目标:学习对噪声或输入局部遮挡具有抵抗力的特征。通过强制模型去噪,它隐式学习数据的基础结构,捕捉输入特征之间的依赖关系以补全缺失或嘈杂的信息。收缩自编码器(CAE):收缩自编码器向损失函数添加一个惩罚项,该惩罚项对应于编码器激活值关于输入的雅可比矩阵的平方弗罗贝尼乌斯范数。此惩罚迫使编码器映射$h = f(x)$具有收缩性,这意味着它对训练数据点周围输入空间中的小扰动不敏感。目标:学习局部不变或稳定的表示。编码器被鼓励将输入点的一个邻域映射到潜在空间中的一个更小的邻域,本质上捕捉数据流形沿方向的变化,同时忽略正交于它的方向。对学习表示的影响正则化类型明显影响学习到的潜在空间$h$的属性:稀疏自编码器倾向于产生表示,其中单个数据点仅激活少数维度。这可能产生针对某些模式的专有检测器,但除非与其他技术结合,否则可能不会产生适合生成或插值的平滑结构潜在空间。去噪自编码器学习捕捉数据流形的表示。从损坏输入中重构的需要,迫使模型理解数据的统计结构。这通常会产生对后续任务有用的特征,尽管潜在空间结构不像变分自编码器(VAEs)(稍后会介绍)那样被明确控制。收缩自编码器促使表示在正交于数据流形的方向上压缩变化。这导致表示对流形方向沿的变化高度敏感,但对其他方向不变。这种局部稳定性对基于所学特征执行的分类任务可能有利。计算考量稀疏自编码器:额外计算成本相对较低。计算$L_1$范数或平均激活值和KL散度对前向和后向传播的增加极小。去噪自编码器:主要开销来自于数据损坏步骤,需要为每个训练批次执行。此步骤的复杂性取决于所选的损坏方法,但通常可控。网络架构本身不变。收缩自编码器:这些通常计算成本最高。计算雅可比矩阵$J_f(x)$涉及计算所有隐藏单元激活值相对于所有输入维度的梯度。对于高维输入和隐藏层,这会相比标准自编码器或其他正则化自编码器大幅增加训练时间。优缺点总结特性稀疏自编码器去噪自编码器收缩自编码器机制激活稀疏性惩罚(L1/KL)从损坏输入重构惩罚雅可比范数目标特征选择,稀疏编码对噪声的抗干扰性,流形学习局部不变性,稳定性优势潜在可解释的特征有用的特征,经验上有效理论上有依据的局部稳定性劣势稀疏性调优敏感需要定义损坏过程计算成本高(雅可比)可能无法产生平滑潜在空间潜在空间结构不太直接收缩强度调优困难成本低开销中等开销(损坏)高开销(雅可比计算)典型用途特征选择,可解释性噪声数据,特征提取当局部输入不变性重要时选择合适的技术稀疏自编码器、去噪自编码器和收缩自编码器之间的选择很大程度上取决于具体目标和数据性质:如果您的主要目标是对噪声输入的抗干扰性或隐式学习捕捉数据基础结构的特征,去噪自编码器通常是强劲而实用的选择。它们被广泛使用且经验上有效。如果您需要对小输入变化具有稳定性的特征,并且愿意为潜在更好的局部几何属性接受更高的计算成本,收缩自编码器可能适合。如果您的目标是高度稀疏的表示,其中每个输入只有少数特征活跃,也许是为了可解释性或模仿生物稀疏编码,稀疏自编码器是直接的方法。值得注意的是,这些技术并非相互排斥。例如,可以将去噪与稀疏性约束结合。然而,在实践中,去噪自编码器通常在性能、抗干扰性和实现简便性之间提供良好平衡,适用于许多表示学习任务。随着我们继续学习,尤其是变分自编码器(VAEs),我们将看到控制潜在空间结构和属性的不同方法,通常更明确地侧重于生成能力。