既然已经确定了神经网络的结构,包括神经元、层和激活函数,下一步自然是弄明白这些网络如何从数据中学习。这需要调整网络的内部参数——其权重和偏置——以提高预测的准确性。本章将讲解此学习过程的原理。首先,我们需要一种方法来衡量网络表现的好坏。这通过使用损失函数来实现,损失函数会计算网络预测值与实际目标值之间的差异。我们将介绍回归任务(如均方误差($MSE$)和平均绝对误差($MAE$))和分类任务(如交叉熵)的常用损失函数。在定义了误差衡量方式后,目标是通过系统地调整网络参数来最小化此误差。用于此优化的主要算法是梯度下降。我们将讲解其工作原理,包括它如何使用梯度来迭代更新权重。将会讨论学习率等主要内容,以及实际中普遍使用的实用变体,如**随机梯度下降(SGD)**和小批量梯度下降。我们还将简要介绍梯度下降过程中遇到的一些问题。学完本章后,你将明白神经网络如何根据所接收的数据进行自我调整。