趋近智
针对资深AI工程师,本课程对Transformer架构进行详细研究。内容涵盖现代大型语言模型背后的理论基础、数学细节和高级实现技术。学员将获得对自注意力 (self-attention)机制 (attention mechanism)、位置编码 (positional encoding)、归一化 (normalization)层和架构变体的透彻理解。
先修课程 深度学习与熟练Python
级别:
自注意力机制
分析缩放点积注意力的数学公式和计算方面。
多头注意力
理解将查询、键和值投射到多个子空间的原理和实现细节。
位置编码
评估将序列顺序信息注入Transformer模型的不同方法。
编码器-解码器堆栈
剖析完整的Transformer架构,包括层归一化和前馈子层。
架构变体
比较和对比不同的Transformer变体(例如,稀疏注意力、线性Transformer)。
实现考量
实现核心Transformer组件并理解计算效率的权衡。
© 2026 ApX Machine Learning用心打造