High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, 2022Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE)DOI: 10.48550/arXiv.2112.10752 - 提出了潜在扩散模型,显著降低了高分辨率图像合成的计算需求。详细阐述了通过交叉注意力与文本嵌入(如CLIP)进行条件化的架构,及其与无分类器引导的整合,为Stable Diffusion等模型奠定了基础。