趋近智
所有课程
6.1 自适应学习率的必要性
6.2 AdaGrad:调整每个参数的学习率
6.3 AdaGrad 的局限性:学习率衰减
6.4 RMSprop:处理AdaGrad的局限性
6.5 Adam:自适应矩估计
6.6 Adam算法细致分析
6.7 Adamax 和 Nadam 变体(简要概述)
6.8 优化器选择指南
6.9 实现 Adam 和 RMSprop
6.10 动手实践:优化器比较实验
© 2025 ApX Machine Learning