趋近智
群论方法为解耦提供了一条更具结构性且通常更易于理解的途径,这与像-VAE和FactorVAE这样旨在潜在因子间实现统计独立的方法形成对比。这种观点运用了许多数据集具有固有对称性的认识,并且学习明确表示这些对称性能够促成鲁棒的解耦表示。
其核心在于,这种方法将数据生成视为受到形成数学群的变换的影响。例如,图像中的一个物体可以平移、旋转或缩放。这些操作中的每一个,或它们的序列,都可以由群的元素来描述(例如,平移群、旋转群)。如果VAE能够学习将数据空间中的这些变换映射到特定潜在维度中的可预测变化,那么这些维度就相对于这些变换实现了解耦。
在数学中,群是一个带有二元运算(诸如加法或乘法)的集合,它满足四条公理:封闭性、结合律、单位元以及集合中每个元素的逆元。数据上的许多常见变换自然地构成群:
当数据点被群元素变换时(例如,是特定的旋转),我们得到一个新的数据点。群论解耦的目的是让编码器学习一个表示,使得如果被变换为,新的潜在编码以清晰体现的方式变化,理想情况下仅改变与该群作用相对应的特定潜在变量子集。
本框架中的一个核心思想是等变性。如果编码器对群等变,那么对于任何作用于输入的变换以及作用于潜在空间的相应变换,下列关系成立:
这个等式意味着先变换输入再进行编码,与先编码输入再在潜在空间中施加相应变换,得到相同的结果。如果以可预测的方式(例如,线性地)仅修改一个潜在维度(或一小部分特定子集),那么该维度就相对于群作用实现了解耦。
例如,如果表示输入图像的10像素水平平移,一个等变编码器可能会导致成为一个操作,它向特定的潜在变量(表示水平位置)添加一个常数值,同时使其他潜在变量(对于)基本保持不变。
一个变换(例如,旋转)施加到数据上,得到。一个等变编码器确保潜在表示等同于对原始潜在编码施加相应的变换。当修改与变换相关的特定潜在维度时,即可实现有效的解耦。
与等变性不同,不变性在时出现。这意味着当输入被变换时,表示不会改变。虽然这不会直接促成因子的解耦,但不变性对于消除无关变量可能是有益的。例如,一个物体识别系统可能会受益于对物体位置或光照条件不变的表示。一个完全解耦的系统可能有一些潜在维度对某些因子等变,而另一些对无关因子不变。
鼓励VAE学习这种群论解耦可以通过以下几种方式来实现:
通过数据对称性进行隐式学习:如果数据集自然地表现出与潜在生成因子相对应的强对称性,一个标准VAE(可能辅以像-VAE中那样的仔细正则化 (regularization))可能会隐式地学习捕捉这些等变关联。ELBO本身通过鼓励一个紧凑且信息丰富的潜在空间,有时会有利于与简单数据变换一致的解决方案。
使用已知变换进行数据增强:可以在数据对上明确地训练VAE,并强制其潜在编码和遵循期望的变换。例如,如果是已知的平移,一个损失项可以促使某个特定的潜在变量随平移量线性变化。这需要了解真实的因子及其变换。
等变性的架构设计:更复杂的方法涉及设计神经网络 (neural network)架构,使其天生对某些群具有等变性或近似等变性。例如,卷积神经网络(CNN)由于卷积层中的权重 (weight)共享,天生具有平移等变性。对于其他群,例如旋转或缩放,可能需要专门的网络组件或架构(例如,群等变CNN)。
促进群结构的损失函数 (loss function):研究人员提出了明确促使潜在空间遵守群性质的损失项。这可能涉及在输入变换时,对潜在空间中偏离预期变换的行为进行惩罚。
采用群论观点为解耦带来了多项优势:
尽管其理论上引人入胜,但在实践中应用群论方法仍面临重大挑战:
解耦学习中的可识别性问题(我们稍后将详细讨论)询问是否可能在不含糊的情况下唯一地恢复真实的潜在生成因子。群论方法通过基于对称性对学习到的表示施加强大的结构约束,能够为改进可识别性提供一条途径,至少对于那些可以通过群作用描述的变化因子而言。如果数据中的变换已知属于某个特定群,那么要求潜在表示对该群等变可以显著限制可能解决方案的空间,潜在地促成那些因子更独特和可识别的表示。
总而言之,尽管并非所有解耦挑战的万能药,群论提供了一个强大而优雅的框架,用于思考和达成解耦表示,特别是当数据表现出清晰对称性时。它促进了模型的设计,这些模型不仅学习存在哪些特征,还学习这些特征如何变换,从而产生更具结构性且通常更有用的潜在空间。该方面的持续研究继续考察如何在VAE和其他生成模型中最佳地近似或学习这些对称性,即使群是未知或复杂的。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•