趋近智
所有课程
7.1 选择框架 (PyTorch, TensorFlow, JAX)
7.2 权重初始化策略
7.3 适用于Transformer的优化器 (Adam, AdamW)
7.4 学习率调度 (热身, 衰减)
7.5 正则化方法 (Dropout, 标签平滑)
7.6 梯度裁剪
7.7 混合精度训练
7.8 高效注意力算法实现 (FlashAttention)
7.9 模型并行与数据并行策略
7.10 实践:分析注意力权重分布
© 2025 ApX Machine Learning