趋近智
N-gram模型是理解语言概率的常用方法。尽管它们在理解语言概率中扮演着基础角色,但这些模型有一个重要限制:它们难以处理在训练中未曾出现的词语序列。例如,如果三元组“wreck a nice”从未在文本数据中出现过,N-gram模型会把“beach”这个词紧随其后的概率设为零。这个问题,称为数据稀疏,意味着N-gram模型的泛化能力有限。
而神经网络为语言建模提供了更有效、更灵活的方式。神经网络不再仅仅统计词语同时出现的情况,而是学会用它们的语境和含义来表示词语。
神经网络语言模型的第一步是,不再把词语看作是简单、独立的文本标签。相反,每个词被映射成一串密集的数字,称为词嵌入或词向量。
这些向量的一个重要特点是,含义相近或在类似语境中使用的词,会有相似的向量。例如,“nice”、“good”和“lovely”的向量在向量空间中会彼此数值上接近。仅此一项变化就让模型比N-gram模型更好地泛化。如果模型学会了短语“a good day”,它能推断出“a nice day”也是一个很可能出现的短语,因为“good”和“nice”的向量很相似。
N-gram模型和神经网络方法的对比。N-gram模型依赖直接查找,而神经网络处理词语的数值表示以理解语境。
N-gram模型的另一个限制是其固定的短时记忆。例如,一个三元模型仅考虑前两个词。它无法获取句中更早出现的词语信息。
为处理序列设计的神经网络结构,例如循环神经网络(RNNs),应对了这个问题。RNN一次处理一个词,并保持一个内部状态,或者说“记忆”,它随着每个新词而更新。这个状态允许模型保存句子开头的信息,并用它来做出更好的预测。例如,在句子“My friends from Germany, who I haven't seen in years, are finally coming to visit. I can't wait to speak... ”中,RNN比N-gram模型更有可能预测“German”这个词,因为它能记住很早之前“Germany”的语境。
总而言之,神经网络语言模型与传统N-gram模型相比有两大优点:
由于这些出色的性能,基于神经网络的语言模型现在几乎是所有现代语音识别系统的标准配置。LSTMs(长短期记忆网络)和Transformers等模型的具体细节是更高级课程的内容,但你的N-gram知识为理解这些更复杂的模型为何如此高效提供了很好的铺垫。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造