趋近智
尽管标准U-Net能有效处理空间信息和时间步嵌入 (embedding),但要使用更复杂的条件引导生成过程,需要特定的架构调整。简单的类别标签,通常通过基础嵌入层进行集成,不足以满足需要精细控制的任务,例如文本到图像生成、图像编辑或风格迁移。将丰富的条件信息直接注入U-Net结构中的高级技术得到呈现。
交叉注意力已成为一种强大的机制,用于在神经网络 (neural network)中融合来自不同模态的信息,并且在扩散模型的条件化方面尤为有效。在U-Net中,交叉注意力层允许模型在不同空间位置和分辨率生成特征时,有选择地关注条件信号的相关部分(例如文本提示中的特定词语)。
通常,在U-Net模块内(通常与自注意力 (self-attention)层并列),会引入一个交叉注意力层。核心组成部分包括:
注意力机制 (attention mechanism)随后计算空间查询(Q)和条件键(K)之间的相关性得分,利用这些得分来加权条件值(V)。所得的加权值会被添加回U-Net的特征图,从而有效地注入条件信息。
此处, 是键向量 (vector)的维度。此操作允许U-Net特征图中的每个空间位置关注条件输入中最相关的部分。
图示了一个U-Net内的交叉注意力模块中的信息流,整合了条件嵌入。查询来自U-Net特征,而键和值则源自外部条件信号。
此机制是当前最先进的文本到图像模型(如Stable Diffusion)的核心,其中文本嵌入通过交叉注意力在U-Net内的多个分辨率层级被注入。
另一种有效技术涉及根据条件信号调整归一化层的参数 (parameter)。标准归一化层,如组归一化(Group Normalization)或层归一化(Layer Normalization),在一个层内标准化特征。自适应归一化技术,例如自适应层归一化(AdaLN)或其变体(如AdaLN-Zero),使标准化过程本身具有条件性。
通常的思路是预测归一化层的缩放()和偏移()参数,基于条件信息 (通常也包括时间步嵌入 (embedding) )。
给定输入特征图 和归一化层 ,自适应归一化过程如下:
这使得条件信号能够动态影响整个网络中特征的统计数据。AdaLN-Zero是一种特定的初始化策略,其中MLP在初始时输出 和 ,确保条件块在训练开始时作为恒等函数作用,这可以提高稳定性。
自适应归一化在计算上比交叉注意力更轻量,因为它不涉及基于序列长度的昂贵矩阵乘法。它通常与交叉注意力结合使用或作为其替代方案,特别是对于可以通过单个向量 (vector)表示的条件信号(例如类别标签或全局风格嵌入)。
集成条件信息还有一些复杂度较低的方法,尽管与注意力或自适应归一化 (normalization)相比,它们的表达能力可能较低。
这些方法实现起来很简单,但与注意力机制 (attention mechanism)相比,可能难以将条件信息与特定空间特征精确对齐 (alignment)。它们有时用于较简单的模型中,或用于集成全局条件信号。
具体的集成技术通常取决于条件信号的性质:
高级应用可能需要同时结合多个条件信号(例如,根据文本提示和风格图像生成图像)。架构可以通过以下方式处理此情况:
有效集成条件信息对于控制扩散模型的输出非常重要。虽然交叉注意力提供精细的控制,特别是对于序列或空间条件化,但自适应归一化提供了一种有效方式来调制网络特征,基于全局或基于向量 (vector)的条件。方法的选择取决于具体任务、条件信号的性质,以及计算成本和生成控制之间期望的权衡。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•