趋近智
大师班
在上一章中回顾了循环架构后,我们现在来看 Transformer 模型。循环模型逐个处理序列中的标记,这对并行计算以及建立长距离关联构成了难题。Transformer 架构通过完全用注意力机制替代循环结构,解决了这些局限。
本章将讲解 Transformer 的结构。你会了解到:
本章结束后,你将了解使 Transformer 在序列建模任务中有效运作的基本组成部分。
4.1 通过注意力机制解决循环问题
4.2 缩放点积注意力
4.3 多头注意力机制
4.4 位置编码方法
4.5 编码器与解码器堆叠
4.6 层归一化与残差连接的作用
© 2026 ApX Machine Learning用心打造