趋近智
所有课程
6.1 自注意力机制的计算复杂度
6.2 稀疏注意力机制
6.3 近似注意力机制:线性Transformer
6.4 基于核的注意力近似 (Performers模型)
6.5 低秩投影方法(Linformer)
6.6 Transformer-XL:分段循环
6.7 相对位置编码
6.8 预归一化与后归一化 (预LN与后LN)
6.9 神经网络语言模型的缩放法则
6.10 参数效率与共享技术
© 2025 ApX Machine Learning