趋近智
TF-IDF等方法是将文本数值化表示的有效手段。这些方法通常基于“词袋”假设,将文档视为无序的词语集合。虽然对于某些任务,例如基于主题的文档分类,这种方法行之有效,但它忽略了语言的一个基本特点:其序列性。词语出现的顺序对于理解其原意通常非常重要。
请看下面这些简单的句子:
如果使用基本的词袋表示,这两个句子可能看起来非常相似。它们包含完全相同的词语:{狗, 咬, 人}。然而,它们的含义截然不同,这种差异完全取决于词语的顺序。一个忽略顺序的模型无法区分这两种情况。
这并非一个孤立的问题。许多重要的自然语言处理任务都很大程度上依赖于理解文本的序列结构:
TF-IDF等基于频率的方法擅长捕捉文档或语料库中存在哪些词以及它们的重要性,但它们抛弃了序列中编码的位置和时序信息。这些方法本质上是把所有词语放进一个袋子,摇匀,然后数数。这个过程丢失了序列所提供的语法结构和语境关系。
为了处理顺序很重要的任务,我们需要能够逐步处理输入的模型,这些模型会保持某种形式的记忆或内部状态,用于捕捉序列中前面元素的信息。这种“记忆”过去信息的能力使得模型能够结合之前的语境理解当前的输入。
本章介绍一类专门为序列数据设计的模型:循环神经网络(RNNs)及其更高级的版本,如LSTM和GRU。这些模型解决了忽略顺序表示的局限性,并为处理序列不可或缺的复杂语言理解任务奠定了基础。我们将首先研究RNN的基本架构。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造