趋近智
生成建模的核心目标在于学习给定数据集的内在结构和概率分布。假设你有一组图像,例如手写数字。生成模型的目标是理解这些数字是如何形成的,而不仅仅是分类它们。更正式地说,如果我们将数据点(图像、音频信号、文本序列)表示为 ,那么目标就是学习或近似真实数据分布,通常记作 。这个函数告诉我们观察到任意特定数据点 的概率(对于连续数据而言是概率密度)。
学习 有什么用处?
然而, 几乎总是未知且极其复杂的,特别是对于像自然图像这样的高维数据。一张 256x256 像素的彩色图像存在于一个包含 维度的空间中。直接在这种高维空间 (high-dimensional space)中建模概率分布在计算上具有挑战性,并且需要大量数据。
因此,我们不直接精确地找出 ,而是使用一个模型分布 ,它由一组可学习参数 (parameter) 定义。这些参数通常是深度神经网络 (neural network)的权重 (weight)和偏差。训练生成模型的核心任务是调整 ,使得 尽可能接近真实的(但未知的)。
此图展现了真实数据分布()、观测数据样本、生成模型的分布()、其参数()以及生成样本之间的关系。训练过程旨在调整 ,使 尽可能接近 。
我们如何衡量 与 之间的“接近程度”并优化 ?不同类型的生成模型采用不同的策略:
显式密度模型: 这些模型为 定义了显式数学公式,并常使用**最大似然估计(MLE)**进行训练。目标是找到使训练数据观测(对数)概率最大化的参数 : 这里, 表示训练集中的数据点。虽然理论上具有吸引力,但对于许多灵活的模型(如深度神经网络)来说,由于复杂的依赖关系或归一化 (normalization)常数,计算或优化此似然可能难以处理。变分自编码器(VAEs)、基于流的模型和自回归 (autoregressive)模型等方法均属于此类,每种方法都采用不同方式使似然变得可计算或对其进行近似。扩散模型,正如我们将要看到的,也常与似然估计相关联,尽管它们的训练目标可能采用不同形式(例如,分数匹配或去噪目标)。
隐式密度模型: 这些模型不定义显式的 。相反,它们提供了一种从其隐式表示的分布中采样的机制。生成对抗网络 (GAN)(GANs)是主要示例。GAN 的生成器网络 学习从简单先验分布 (例如高斯噪声)到复杂数据分布的转换。它学习生成与真实数据 难以区分的样本 ,由判别器 指导。你之前看到的最小-最大目标函数推动了这一过程,隐式地调整 的分布以匹配 ,而无需写下或计算生成样本的概率密度。
了解这一概率理论很重要。无论是显式地最大化似然,还是通过对抗性博弈隐式地匹配分布,核心目标保持不变:创建一个能够忠实反映原始数据集中特征和变化的模型。随着学习的展开,我们将看到 GANs 和扩散模型如何以独特而有力的方式运用这些概率原理,在合成数据生成中取得领先成果。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造