趋近智
既然已经确定了神经网络 (neural network)的结构,包括神经元、层和激活函数 (activation function),下一步自然是弄明白这些网络如何从数据中学习。这需要调整网络的内部参数 (parameter)——其权重 (weight)和偏置 (bias)——以提高预测的准确性。本章将讲解此学习过程的原理。
首先,我们需要一种方法来衡量网络表现的好坏。这通过使用损失函数 (loss function)来实现,损失函数会计算网络预测值与实际目标值之间的差异。我们将介绍回归任务(如均方误差()和平均绝对误差())和分类任务(如交叉熵)的常用损失函数。
在定义了误差衡量方式后,目标是通过系统地调整网络参数来最小化此误差。用于此优化的主要算法是梯度下降 (gradient descent)。我们将讲解其工作原理,包括它如何使用梯度来迭代更新权重。将会讨论学习率等主要内容,以及实际中普遍使用的实用变体,如**随机梯度下降(SGD)**和小批量梯度下降。我们还将简要介绍梯度下降过程中遇到的一些问题。学完本章后,你将明白神经网络如何根据所接收的数据进行自我调整。
3.1 衡量表现:损失函数
3.2 常见的回归损失函数 (MSE, MAE)
3.3 用于分类的常用损失函数(交叉熵)
3.4 优化:寻找最优权重
3.5 梯度下降算法
3.6 学习率
3.7 随机梯度下降 (SGD)
3.8 梯度下降的难题
3.9 动手实践:梯度下降可视化