趋近智
U-Net架构常作为扩散模型的骨干,通过其带跳跃连接的编码器-解码器结构,有效捕获空间层次。尽管有效,标准U-Net实现仍需修改,以应对扩散过程和复杂生成任务的特定要求。
本章审视针对扩散模型定制的U-Net架构改进。我们将分析注意力机制 (attention mechanism)(具体而言是自注意力 (self-attention)与交叉注意力)的结合,以提升特征表示能力并纳入条件信息。你将学习有效注入时间步嵌入 (embedding) () 的方法,以及处理除简单类别标签之外的更高级条件输入。我们还将讨论旨在提升计算效率和训练稳定性的架构变体,包括不同的归一化 (normalization)技术,例如组归一化和自适应层归一化 (AdaLN)。在本章结束时,你将理解如何实现并分析这些复杂的U-Net变体,以构建更强大的扩散模型。
2.1 扩散模型中的标准U-Net
2.2 U-Net中的注意力机制(自注意力、交叉注意力)
2.3 在U-Net中整合时间嵌入
2.4 高级条件输入整合
2.5 为求效率的架构变体(深度、宽度、池化)
2.6 归一化方法(GroupNorm, AdaLN)
2.7 实操:修改带注意力机制的 U-Net