信赖域(TR)方法提供了一种与依赖线搜索的优化方法不同的策略。虽然许多优化技术,例如牛顿法和拟牛顿法(如BFGS和L-BFGS),通常先找到一个搜索方向(通常基于Hessian矩阵的近似值Bk),然后进行线搜索以找到沿该方向的合适步长,但TR方法则采用不同的策略。它们在当前迭代点xk周围划定一个范围,在这个范围内,它们认为二次模型mk(p)能够很好地近似真实目标函数f(xk+p)。然后,它们通过在这个受信任的范围内最小化这个模型来找到候选步长pk。
回顾之前介绍的二次模型:
mk(p)=f(xk)+∇f(xk)Tp+21pTBkp
这里,Bk通常是精确的Hessian矩阵∇2f(xk),或者是BFGS或L-BFGS维护的拟牛顿近似。
信赖域子问题
在每次迭代k中,信赖域方法的核心是解决以下信赖域子问题:
p∈Rnminmk(p)受限于∣∣p∣∣≤Δk
范围∣∣p∣∣≤Δk是信赖域,其中Δk>0是信赖域半径,范数∣∣⋅∣∣通常是欧几里得(L2)范数。这个子问题寻求一个步长p,它能使模型mk最小化,同时保持在距离当前点xk的Δk范围内。
可以把Δk看作步长的预算。如果无约束地最小化mk所建议的完整步长(牛顿或拟牛顿步长)落在预算之内,我们可能会采纳它。如果落在预算之外,约束∣∣p∣∣≤Δk将变为有效,并且最优解pk将位于信赖域的边界上。
精确求解这个带约束的二次最小化问题可能很复杂。然而,实际的信赖域算法通常采用高效的方法来找到一个近似解pk。常用的方法包括:
- 狗腿法(Dogleg Method): 当Bk是正定矩阵时尤其适用。它巧妙地在最速下降方向和牛顿方向之间找到一条路径(“狗腿”),并与信赖域边界相交。
- Steihaug-Toint 共轭梯度法: 应用共轭梯度算法来近似最小化二次模型mk(p),但如果CG生成的迭代点超出信赖域边界,则终止进程。即使当Bk不是正定矩阵时,这种方法也表现良好。
子问题求解器的选择会影响信赖域方法的整体效率和适用性。
调整信赖域半径
信赖域方法的一个重要特点是半径Δk的自适应调整。这种调整是根据目标函数f中实际获得的下降量与模型mk预测的下降量进行比较。
我们计算比率ρk:
ρk=预测下降实际下降=mk(0)−mk(pk)f(xk)−f(xk+pk)
注意,mk(0)=f(xk),所以分母代表了二次模型在迈出步长pk时预测的下降量。
ρk的值表示我们的二次模型在当前信赖域内表现如何:
- 非常好的吻合(ρk大,例如,ρk>0.75): 模型准确。我们可以更进一步。接受该步长(xk+1=xk+pk),并增加下一次迭代的信赖域半径(例如,Δk+1=max(Δk,2∣∣pk∣∣) 或 Δk+1=2Δk)。
- 合理吻合(ρk适中,例如,0.1<ρk≤0.75): 模型有一定准确性。接受该步长(xk+1=xk+pk),但要小心。保持信赖域半径不变或略微减小(Δk+1=Δk)。
- 吻合度差(ρk小或为负,例如,ρk≤0.1): 模型在这个范围内预测不佳,可能是因为步长过大或曲率变化迅速。拒绝该步长(xk+1=xk),并大幅缩小信赖域(Δk+1=0.5Δk 或类似)。算法随后将在迭代k中用较小的Δk+1再次解决子问题。
这种反馈机制使得信赖域方法能够根据损失函数的局部几何形状自动调整步长。
根据吻合度比率ρk来更新信赖域半径Δ并接受/拒绝步长pk的主要逻辑。
优点与考量
信赖域方法具有以下几个优点:
- 稳定性: 它们比标准线搜索方法更能从容应对不定Hessian矩阵(牛顿法可能在这种情况下失效或走向鞍点/最大值)。信赖域约束本身就能限制步长,避免发散。
- 强大的收敛理论: 它们拥有可靠的理论收敛保证,即使对于非凸问题,也常能证明收敛到满足二阶必要条件的点。
- 无需线搜索: 步长由信赖域半径Δk隐式控制,无需单独的线搜索过程。
然而,也存在一些需要考量的地方:
- 子问题成本: 在每次迭代中求解或精确近似信赖域子问题的解,其计算量可能比L-BFGS等方法中的简单方向计算和线搜索更大。
- 参数调整: ρk的具体阈值以及用于增加/减少Δk的系数是超参数,可能需要调整以获得最佳性能。
在机器学习中的相关性
在大规模深度学习中,传统的信赖域方法较少用于直接的端到端训练,与自适应一阶方法(如Adam)或L-BFGS相比。这主要是因为Hessian信息(即使是近似的)及其在处理数百万参数的子问题上的成本较高。
然而,了解信赖域方法仍有以下几方面的重要性:
- 它们提供了一个使用曲率信息控制步长的不同视角。
- 受信赖域原理启发的方法,例如限制步长范数或使用模型吻合度检查,也出现在其他高级优化场景中。
- 无Hessian优化方法有时会融入信赖域的思想,以帮助涉及的线性系统求解更稳定。
- 它们通常对小规模机器学习问题或大型算法中对稳定性要求很高的特定子问题表现良好。
信赖域方法是一类精密的优化算法,通过细致地控制模型近似被认为准确的范围,它们提供了强大的理论特性和实际的稳定性。尽管它们今天可能不是训练大型神经网络的首选,但其核心原理能够增进我们对数值优化的认识。