趋近智
标准自动编码器及其正则化 (regularization)形式(如去噪或稀疏自动编码器)的主要目标是高效的数据压缩和重建。编码器网络将输入映射到确定性潜在编码,解码器网络尝试将原始输入重建为。训练过程会最小化重建损失,以确保与接近。
尽管这种确定性设置在降维和特征学习方面表现出色,但当我们的目标转向生成与训练分布相似的新数据样本时,它会带来显著挑战。例如,我们如何生成一张新颖的图像?最直接的想法是:
问题在于第2步:我们如何选择一个“好”的?我们能简单地随机选择一个向量 (vector)并期待得到一个真实的结果吗?通常情况下,答案是否定的。标准自动编码器仅仅为了重建而优化,其产生的潜在空间往往不利于生成。
主要原因如下:
编码器学习将训练输入映射到潜在空间中的特定点。解码器学习将这些特定的映射回。然而,自动编码器的目标函数并未明确要求潜在空间必须是连续的或平滑的。这意味着:
潜在空间中编码点的分布可能相当不规则。它可能由不连接的簇组成,或者遵循复杂、稀疏的流形结构。在对应有效数据表示的区域之间,可能会存在大的“空洞”或间隙。
标准自动编码器的潜在空间通常包含与训练数据对应的簇,但这些簇之间的区域(如红色叉号)可能无法解码为有意义的输出。
如果我们随机采样一个,使其落入这些间隙之一(如上图中的红色'x'标记 (token)),解码器由于从未在该区域的输入上进行训练,因此没有动力产生连贯的输出。
标准自动编码器缺乏潜在空间的概率设定。编码器为每个输入提供一个单一的点估计。没有机制来建模可能潜在编码的分布或条件分布。如果没有一个明确定义的分布来采样,生成新数据就会变成一个随机过程。除了从训练数据本身编码的位置之外,我们不知道有效编码在潜在空间的何处。
稀疏性或去噪等正则化 (regularization)技术轻微修改了潜在空间属性,但并未根本解决这种生成局限。稀疏自动编码器鼓励大多数潜在单元处于非活跃状态,而去噪自动编码器学习将受损输入映射到更清晰的重建,可能会轻微平滑表示,但两者都没有施加可靠采样和生成所需的概率结构。
为了解决这些局限并构建有效的生成模型,我们需要一种不同的方法。我们需要一种方法来:
这正是变分自动编码器(VAEs)的设计目的。它们为编码器和解码器引入了概率视角,明确地将潜在变量建模为分布,并优化一个目标函数,该函数既鼓励良好的重建,又促进形成适合生成的结构化潜在空间。我们将在后续章节中审视这个概率框架。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•