趋近智
大师班
17.1 梯度下降算法变体回顾 (SGD, 动量)
17.2 自适应优化器:Adam和AdamW
17.3 学习率调度策略
17.4 梯度裁剪方法
17.5 选择优化器超参数 (lr, betas, eps, weight_decay)
© 2025 ApX Machine Learning