趋近智
为了有效构建多模态AI模型,将每种模态的原始数据转换为算法能够理解和处理的格式是必不可少的。对于文本,这意味着将字符、词语和句子的字符串转换为数值表示,常被称为特征或嵌入。原始文本本身不能被大多数机器学习模型直接使用,因为它们期望数值输入。从文本数据中获取这些有意义特征的常用方法将被论述。
设想一下,如果想教计算机理解一个句子,例如“A fluffy cat sleeps on a warm rug.”(一只毛茸茸的猫睡在温暖的地毯上)。计算机本身并不知道“fluffy”、“cat”或“sleeps”是什么意思。它只看到一串字符。特征提取是将此文本转换为一组数字(一个向量)的过程,该向量捕捉其意义或结构的某些方面。然后,这些数值向量可以输入到机器学习模型中,模型会从中学习模式。在多模态系统中,这些文本特征稍后将与从图像、音频或其他数据类型中提取的特征结合。
以数值方式表示文本最直接的方式之一是词袋(BoW)模型。可以这样理解:你把文档中的所有词都扔进一个“袋子”里,然后计算每个词出现的次数。词语的顺序和语法都被忽略;只有出现和频率才重要。
它通常是这样工作的:
来看一个简单例子:
我们的词汇表(为简单起见,忽略大小写和标点,并使用唯一词)可能是:{"the", "cat", "sat", "on", "mat", "dog", "chased"}。
文档1的BoW向量:
[2, 1, 1, 1, 1, 0, 0]文档2的BoW向量:
[2, 1, 0, 0, 0, 1, 1]BoW的优点:
BoW的缺点:
词袋模型根据原始计数平等对待所有词。然而,有些词本身信息量比其他词大。例如,“the”、“a”或“is”等词在几乎所有英语文本中都出现得非常频繁,但对文档内容没有多少特定意义。TF-IDF试图通过赋予在特定文档中出现频繁但在整个文档集合(语料库)中出现较少的词更高的权重来解决这个问题。
TF-IDF是两个统计量的乘积:词频和逆文档频率。
词频 (TF): 这衡量了一个词项 在文档 中出现的频率。有几种计算TF的方法。一种简单的方法是原始计数,但通常会进行归一化以避免对较长文档的偏向:
逆文档频率 (IDF): 这衡量了一个词项在整个语料库 中的重要程度。它会降低在许多文档中出现的词项的权重,并增加在少数文档中出现的词项的权重。计算IDF的常用方法是:
为避免除以零(如果词项未在任何文档中出现,这种情况在词汇表根据语料库构建时应该不会发生)或词项在所有文档中出现(导致 ),通常会应用平滑处理,例如,通过在分母中加1: 。对于我们初级课程而言,理解基本原理是重要的。
词项 在语料库 中的文档 里的 TF-IDF 分数 则为:
高TF-IDF分数由高词频(该词在特定文档中常见)和该词在整个文档集合中低文档频率(该词整体上罕见)共同达成。这使得TF-IDF能有效突出特定文档的特征词。
例如,在新闻文章集合中,词“election”在一篇专门关于选举的文章中可能具有较高的TF-IDF分数,而词“today”则可能具有较低的IDF分数(因此TF-IDF分数也较低),因为它出现在许多文章中。
TF-IDF的优点:
TF-IDF的缺点:
虽然BoW和TF-IDF提供了有用的数值表示,但它们不捕捉词语之间的意义或语义关联。例如,“happy”和“joyful”是同义词,但在BoW或TF-IDF模型中,如果它们被视为不同的词汇项,它们的向量可能完全不同且不相关。
词嵌入旨在解决这个问题。它们将词表示为密集、低维的向量(例如,50到300维,相比之下,BoW/TF-IDF可能达到数万维)。这些嵌入的主要特点是,意义相似的词在向量空间中由彼此接近的向量表示。
设想一个空间,其中“king”、“queen”、“prince”和“princess”等词位于其中。词嵌入学习到的表示形式使得“king”和“queen”之间的向量关系可能类似于“man”和“woman”之间的向量关系。这常用一个著名例子来说明:vector(“king”) - vector(“man”) + vector(“woman”) \u2248 vector(“queen”)。
它们与BoW/TF-IDF有何不同?
用于创建词嵌入的流行算法包括:
一个重要优势是存在预训练词嵌入。研究人员在大量文本数据(如维基百科的所有内容或大型新闻语料库)上训练了这些模型。这意味着你通常可以下载这些预训练嵌入并直接在你的模型中使用它们,而无需从零开始在自己(可能较小)的数据集上进行训练。这很有用,尤其当你的数据集不足以自行学习高质量嵌入时。
对于多模态系统,这些密集的词(或句子)嵌入向量作为丰富、语义上有依据的输入,送入神经网络的某些部分,这些部分稍后将这些文本信息与图像或音频的特征结合。
到目前为止,我们主要谈论了表示单个词。但通常,我们需要表示整个句子或文档。我们如何做到这一点呢?
无论选择哪种技术,BoW、TF-IDF还是词嵌入,文本特征提取的目的是一致的:将原始文本转换为一组数值特征。这些特征是AI模型能够理解的构成要素。一旦我们为文本获得了这些数值表示,并且类似地为图像和音频等其他模态(我们接下来会讲到)也获得了数值表示,我们就向在多模态AI系统中结合它们更近一步。这些提取的特征将作为输入,送入我们在前一章讨论的集成技术和模型架构中。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造