在确定了什么是合成数据以及它在机器学习中有何用处之后,本章将侧重于最初的如何实现。我们将研究用于生成人工数据点的基本技术,从理论转向简单的实际运用。您将了解通过模型或程序生成新数据的核心思想。我们将介绍通过从常见统计分布中抽样来生成数据的方法,例如生成每个结果出现概率均等的值(均匀分布),或者生成围绕均值 $ \mu $ 且具有标准差 $ \sigma $ 的聚类值(正态分布)。我们还将考察基于规则的系统,其中数据是根据特定、预设的限制条件创建的。本章提供运用这些基本方法生成简单的数值型和分类型数据的示例。其中包含一个动手实践环节,通过指导您创建基本的合成数据,帮助您巩固这些技术。在本章结束时,您将掌握从零开始生成数据的初步方法。