章节 2: 为神经网络准备数据

神经网络 (neural network)处理数字数据，它们的有效学习能力受输入数据的格式和特性影响很大。原始数据集很少能直接使用。本章介绍准备和组织数据以进行最佳神经网络训练的必要步骤。

您将了解如何表示不同类型的输入特征，使用归一化 (normalization)（ $x' = \frac{x - min(x)}{max(x) - min(x)}$ ）和标准化（ $x' = \frac{x - \mu}{\sigma}$ ）等方法对数值数据进行缩放的重要性，以及将分类特征转换为适合网络使用的数值格式（例如独热编码）的方法。此外，我们还将介绍如何将数据分成批次以在训练期间高效处理，以及将数据集划分为训练集、验证集和测试集以进行模型开发和可靠评估的常用做法。本章结束时，您将明白如何将原始数据转换为结构化格式，以促进神经网络有效学习。