趋近智
所有课程
先决条件: 深度学习与熟练Python
级别:
自注意力机制
分析缩放点积注意力的数学公式和计算方面。
多头注意力
理解将查询、键和值投射到多个子空间的原理和实现细节。
位置编码
评估将序列顺序信息注入Transformer模型的不同方法。
编码器-解码器堆栈
剖析完整的Transformer架构,包括层归一化和前馈子层。
架构变体
比较和对比不同的Transformer变体(例如,稀疏注意力、线性Transformer)。
实现考量
实现核心Transformer组件并理解计算效率的权衡。
© 2025 ApX Machine Learning