趋近智
卷积神经网络 (neural network) (CNN)通过空间受限的感受野在学习局部模式方面表现出色,但要掌握图像中的整体信息和长距离依赖,则需要不同的方法。本章介绍注意力机制 (attention mechanism)和Transformer架构,作为提升视觉模型捕获这些更广泛关联的方法。
您将学习自注意力 (self-attention)机制如何与CNN框架结合,以使网络能够有选择地关注更具信息量的特征。我们将介绍具体例子,例如Squeeze-and-Excitation (SE) 模块和非局部网络。接下来,我们研究视觉Transformer (ViT),这是一种通过处理图像块序列的方式,将成功的Transformer架构直接应用于图像数据的模型。我们将学习ViT的主要构成部分,包括图像块嵌入 (embedding)和多头自注意力层。最后,我们将讨论结合了卷积和Transformer元素的混合模型,并比较CNN和ViT的运行特点和数据需求。
5.1 CNN中的自注意力机制
5.2 非局部神经网络
5.3 视觉Transformer简介
5.4 ViT 架构:图像块、嵌入和 Transformer 编码器
5.5 混合CNN-Transformer模型
5.6 CNN与Transformer在视觉任务中的比较
5.7 在CNN中实现注意力模块的实践
© 2026 ApX Machine Learning用心打造