在构建高级自编码器模型之前,有必要了解表示学习的基本原理。高维数据通常需要方法来找到更紧凑或有意义的表达方式。本章首先回顾基本的无监督学习原理。然后我们分析常用的线性降维技术,例如主成分分析 (PCA),并讨论它们在处理复杂数据结构时的局限性。这表明需要非线性方法。我们将介绍流形学习技术,如 $t$-SNE ($t$-分布随机邻居嵌入) 和 UMAP (均匀流形逼近与投影),作为非线性可视化和降维方法的例子。本章还对信息瓶颈理论进行了初步介绍,并回顾了概率论、信息论和优化中必要的数学知识,这些知识将为后续讨论的模型提供支持。完成本章的学习将为构建和理解随后介绍的自编码器架构提供必要的背景知识。