在审视了神经网络如何通过前向传播处理输入并生成输出后,我们现在来回答一个根本问题:网络是如何学习的?本章将介绍使网络能够根据预测误差调整其内部参数的机制。我们将涵盖训练过程中的主要组成部分:损失函数:您将学习如何使用均方误差 (MSE) 或交叉熵等函数来量化网络的预测误差。这个度量结果告诉我们网络的预测与真实值之间存在多大偏差。梯度下降:我们将研究用于最小化计算出的损失的核心优化算法。其基本思想是迭代调整网络参数,使其沿着误差下降最快的方向变化。反向传播:本节将解释这个算法如何高效计算网络中每个权重和偏差的损失函数梯度。它依赖于微积分的链式法则,将误差信号反向传播通过各层。参数更新:您将看到计算出的梯度如何被使用,结合学习率 $ \eta $,来更新网络的权重 $ W $ 和偏差 $ b $,使其更接近误差更低的状态。一个典型的更新公式如下所示 $$ W_{new} = W_{old} - \eta \frac{\partial Loss}{\partial W_{old}} $$学习率:理解学习率参数的重要性及其对训练收敛的影响。优化变体:我们将简要介绍常见的变体,如随机梯度下降 (SGD)、小批量梯度下降以及像 Adam 这样的自适应方法,它们被广泛用于提高训练的稳定性和速度。完成本章后,您将掌握神经网络如何从数据中学习的机制,即通过迭代调整来最小化损失函数,并在反向传播和梯度下降的引导下进行。