机器学习模型非常依赖数据。获取足够且合适的真实数据常遇到难题,如数据稀缺、隐私规定限制或类别不平衡。本章将介绍合成数据,这是一种人工生成的信息,可作为真实数据的替代或补充。我们将明确在此背景下合成数据的定义,考察其生成的主要原因,并将其与真实数据直接对比,说明它们之间的差异、优势和不足。您还将学习此方面常用的基本术语,了解合成数据能带来的好处,并认识到其主要局限性。本章结束后,您将对合成数据背后的基本思想及其在机器学习项目中的作用有清晰的认识。