趋近智
尽管基于卷积神经网络 (neural network)(CNN)的U-Net架构已成为许多成功扩散模型的标准骨干,但Transformer架构(最初在自然语言处理中占据主导地位)已在包括图像合成在内的生成任务中显示出良好的应用前景。Transformer擅长建模长距离依赖,与CNN固有的局部性偏置 (bias)相比,它提供了一种捕获数据中关联的不同方法。
本章将研究如何在扩散模型框架内有效应用Transformer架构。我们将涵盖:
本章结束时,您将理解基于Transformer的扩散模型的结构和功能,并能够分析和实现它们。
3.1 生成式建模中采用Transformer模型的缘由
3.2 使Transformer适应图像数据 (ViT, 图像块嵌入)
3.3 扩散变换器 (DiT):架构概述
3.4 扩散Transformer模型中的条件作用
3.5 U-Net与Transformer在扩散模型中的比较
3.6 DiT 的实现考量
3.7 动手实践:构建一个简单的 DiT 模块