趋近智
基于缩放点积注意力机制,本章侧重于自注意力,这是一种特殊应用,序列在该应用中关联自身不同位置以计算其表示。然而,仅使用单个注意力函数会限制其同时捕获多样化关联关系的能力,可能导致不理想的平均化效果。
为克服这一局限,我们介绍多头注意力。这种方法使模型能够同时关注来自不同表示子空间、不同位置的信息,有效实现注意力机制的多次并行运行。
本章内容包括:
通过理解这些组成部分,您将对 Transformer 架构的一个基本构建块有所认识。
3.1 自注意力:查询、键、值源于同一来源
3.2 单一注意力头的局限性
3.3 引入多头注意力
3.4 每个注意力头的Q、K、V线性投影
3.5 并行注意力计算
3.6 拼接与最终线性投影
3.7 不同注意力头学习内容的分析
3.8 动手实践:构建多头注意力层
© 2026 ApX Machine Learning用心打造