趋近智
先修课程 深度学习与熟练Python
级别:
自注意力机制
分析缩放点积注意力的数学公式和计算方面。
多头注意力
理解将查询、键和值投射到多个子空间的原理和实现细节。
位置编码
评估将序列顺序信息注入Transformer模型的不同方法。
编码器-解码器堆栈
剖析完整的Transformer架构,包括层归一化和前馈子层。
架构变体
比较和对比不同的Transformer变体(例如,稀疏注意力、线性Transformer)。
实现考量
实现核心Transformer组件并理解计算效率的权衡。
本课程没有先修课程。
目前没有推荐的后续课程。
登录以撰写评论
分享您的反馈以帮助其他学习者。