从数据到向量：回顾

正如章节介绍中所述，让计算机处理并理解文本、图像或音频等数据背后的含义，需要将这些信息转换为它们能处理的格式：数字。本节回顾将复杂、通常非结构化数据表示为数值向量 (vector)的基本思想，这些向量通常称为嵌入 (embedding)。

思考如何表示单个词的数值形式。你可以分配一个独特的ID，但这无法体现词语间的任何关联。“狗”（ID 5）和“猫”（ID 12）看起来会与“狗”（ID 5）和“软件”（ID 98）同样无关。我们需要更丰富的方式。

向量嵌入提供了这种丰富性。其核心思想是将每份数据——无论是词语、句子、整篇文档、图像，甚至是歌曲片段——映射到多维几何空间中的一个点。这个点由一个向量表示，它本质上是一组数字。

例如，一段文本如“语义搜索”可能会转换为一个向量 $\vec{v}$ ，形如：

\vec{v} = [0.12, -0.45, 0.88, ..., -0.05]

这个向量通常有许多维度，常有数百甚至数千个维度。向量中的每个数字表示这个高维空间 (high-dimensional space)中沿着一个维度的坐标。

为什么要进行这种转换？其优点在于这些向量之间的关联。良好构建的嵌入会将含义相似的项放置在这个向量空间中更近的位置。

文本： “狗”的向量可能比“计算机”或“云”的向量更接近“小狗”或“犬类”的向量。同样，像“你多大了？”和“你的年龄是多少？”这样的句子应该产生彼此相近的向量。
图像： 不同品种猫咪图像的嵌入会在向量空间中聚集在一起，与汽车或风景的嵌入明显分开。
其他数据： 这一思想可延伸到音频（相似的声音或口语短语）、用户档案（相似的兴趣或行为）等。

生成这些有意义向量的过程依赖于复杂的嵌入模型，这些模型常基于像Transformer这样的深度学习 (deep learning)架构，我们将在下一节中阐述。目前，需要理解的重要思想是这种转换：

数据（文本、图像、音频等）→ 嵌入模型 → 数值向量（嵌入）

这些向量捕捉了原始数据的潜在特征和语义细微之处。向量空间的几何结构反映了其内在含义。相互靠近的点代表语义相似的数据项。这一特性对于语义搜索、推荐系统以及许多其他AI应用都非常重要，因为它使我们能够执行数学运算，例如计算向量间的距离或角度，以量化 (quantization)相似度。

此次回顾为理解这些向量如何被创建和使用做好了准备。我们已经确定可以以数值形式表示多样化的数据，并捕捉其含义。接下来，我们将审视这些负责生成强大向量表示的特定模型。

参考文献

Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, 2013 International Conference on Learning Representations (ICLR) Workshop DOI: 10.48550/arXiv.1301.3781 - 本文介绍了Word2Vec，一种学习分布式词向量表示的方法，能够捕捉词汇的语义和句法关系，是向量嵌入的基础。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems 30 (NIPS 2017) DOI: 10.48550/arXiv.1706.03762 - 这篇开创性论文提出了Transformer架构，通过引入自注意力机制，成为许多当前先进嵌入模型的核心组成部分。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本内容全面的教科书，涵盖了深度学习的理论基础和实践方面，包括神经网络如何学习有意义的数据表示（嵌入）。
Stanford CS224N: Natural Language Processing with Deep Learning, Diyi Yang, Tatsunori Hashimoto, Winter 2025 - 一门大学课程，提供关于现代自然语言处理的讲义和资源，内容涵盖词向量、神经网络以及用于生成嵌入的Transformer模型。