趋近智
训练机器学习模型通常会涉及大到无法在单个批次中处理的数据集。需要计算整个数据集梯度的标准梯度下降,在计算上变得不可行。虽然随机梯度下降(SGD)通过使用来自小数据样本(小批量)的梯度提供了一种可扩展的替代方案,但这会给优化过程带来显著的方差,可能减慢收敛速度。
本章解决使用海量数据集优化模型的具体难题。你将学习以下内容:
我们将审视这些方法如何实现在否则难以处理的数据集上进行高效训练。实际实现以及它们收敛行为的分析将是重要组成部分。
4.1 随机梯度下降再讨论:方差减小
4.2 随机平均梯度 (SAG)
4.3 随机方差缩减梯度 (SVRG)
4.4 小批量梯度下降的权衡
4.5 异步随机梯度下降
4.6 数据并行策略
4.7 SVRG 的动手实现
© 2026 ApX Machine Learning用心打造