趋近智
生成标准图像二维网格结构之外的数据,给GANs带来了独特的难题。将对抗训练用于三维形状时,需要认真考量数据表示、网络结构以及合适的损失函数。三维形状的两种常见表示是点云和多边形网格,每种都需采用不同的方法。
点云可能是最简单的三维表示:一个无序的点集 S={pi∈R3}i=1N,这个集中的 N 是点的数量。每个点 pi 指定 (x,y,z) 坐标,并可能带有颜色或表面法线等其他属性。主要难题源于该点集的无序性。为规则网格设计的标准卷积层不能直接适用,因为它们假设了固定的空间邻域结构和顺序。
结构考量: 为处理点云,GAN生成器和判别器常借鉴PointNet和PointNet++等结构。这些网络实现了排列不变性,即输出不受输入集中点序的影响。这通常是通过对每个点独立应用共享变换(如MLPs)后,使用对称函数(如最大池化)来完成的。
点云生成器可能接收一个潜在向量 z,并常通过全连接层将其变换为 N×3 坐标集。确保生成的点能准确代表三维表面,需要精心的网络设计。判别器反之,接收点云(真实的或生成的)作为输入,并输出一个表示真实性的单一标量。它需要从无序点集中学习表示真实三维结构的特征,并再次运用排列不变层。
点集损失函数: 标准的像素级损失(如L1或L2)不适合用于比较点云,因为两个不同点集之间缺乏对应关系。因此,会使用专用损失函数,这些函数常整合到GAN的目标中,或在某些情况下直接用于生成器训练。两个重要例子是倒角距离(Chamfer Distance, CD)和地球移动距离(Earth Mover's Distance, EMD),点集EMD也称为Wasserstein-1距离。
两个点集 S1 和 S2 之间的倒角距离定义为:
dCD(S1,S2)=x∈S1∑y∈S2min∥x−y∥22+y∈S2∑x∈S1min∥x−y∥22它衡量的是一个集合中每个点到另一个集合中最近邻点的平均平方距离。它的计算效率相对较高,但有时可能倾向于生成松散覆盖目标形状的点,而不是精确匹配其密度。
地球移动距离在两个大小相等点集之间寻找最佳匹配(双射 ϕ),并汇总匹配点之间的距离:
dEMD(S1,S2)=ϕ:S1→S2minx∈S1∑∥x−ϕ(x)∥2EMD常被认为是衡量点云之间差异的更好指标,因为它反映了将一个分布转换为另一个分布的“成本”。然而,它的计算成本高于CD,特别是对于大型点云,并且通常要求点集具有相同的基数。
这些距离可在GAN框架内使用,常用于引导生成器或评估真实与生成点分布之间的相似性。例如,判别器可以使用Wasserstein目标进行训练,隐式地最小化真实与生成分布之间EMD的近似值。
多边形网格使用顶点(三维空间中的点)和面(通常是三角形或四边形)来表示表面,这些面定义了顶点之间的连接。这种显式连接信息捕获了点云所没有的表面拓扑。然而,这种额外结构给生成模型带来了新的复杂性。
难题:
网格生成方法:
基于体素的生成: 一种间接方法是首先生成三维体素网格表示。体素网格是一个三维数组,其中每个单元表示占据(在物体内部或外部)。使用三维卷积神经网络(3D CNNs)的GANs可以生成这些网格。然后可以使用行进立方体(Marching Cubes)等算法从体素网格中提取网格。尽管更简单,但体素表示存在内存消耗高和离散化伪影的问题,限制了可实现的精度。
基于变形的生成: 这些方法从一个具有固定拓扑的模板网格(例如球体)开始。生成器网络学习预测顶点位移,将模板变形为目标形状。这简化了拓扑处理,但将生成器限制在拓扑上等同于模板的形状,从而限制了表达能力。
基于图的生成: 网格可以视为图,其中顶点是节点,边定义连接。图神经网络(GNNs)非常适合处理这种不规则结构。GNNs可以整合到生成器和判别器中。生成器可能输出顶点位置,并可能预测边连接或面信息。设计能有效生成几何形状和合理连接的GNNs仍是一个活跃的研究方向。
点云将形状表示为独立点的集合,而网格通过边连接的顶点定义表面,形成面(由边连接隐含)。
判别器的作用保持不变:区分真实三维形状与生成的形状。其结构必须与所选表示匹配:
评估生成的三维形状与图像评估有共同难题,即评估保真度(质量)和多样性。常见的定量指标包括:
定性目视检查对于判断生成的3D模型的精细细节、表面质量和合理性仍然不可或缺。
总之,将GANs应用于三维数据生成需要比标准CNNs更进一步。通过点云排列不变性技术、针对网格的专用图网络或隐式函数表示,结合合适的损失函数(如CD或EMD)和评估指标,使得对抗训练能够合成复杂的三维结构。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造