趋近智
语音识别系统依赖于将声波转换为特征向量序列。高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) 通常用于表示语音的独特特点。语音模型整合这些概念,在完整的语音识别系统中扮演着主要角色。
语音模型是经过处理的音频信号与语言层面之间的桥梁。它的任务不是理解单词或句子,而是听取一小段音频,并判断它最像哪个基本语音单元,即音素。
可以将语音模型看作一位高度专业的语音学家。如果您给它一个25毫秒音频片段的特征向量,它无法告诉您说话者说的是“cat”还是“car”。然而,它可以告诉您该声音是/k/、/æ/或/t/的概率。它为每个音频帧执行此计算,从而生成一个连续的音素概率流。
为了理解语音模型的功能,明确它的输入和输出内容非常有帮助。
下图展示了语音模型在整个ASR系统中的位置。它接收特征提取的输出,并为解码器提供重要输入。
ASR流水线,展示了语音模型的核心地位。它将特征向量转换为音素概率,解码器会结合语言模型的输入来使用这些概率。
初学者常有的一个误区是认为语音模型的功能超出了实际。语音模型只是证据来源之一,其输出本身就带有模糊性。
请考虑一个典型例子,以下两个短语听起来非常相似:
这两个短语的音素序列几乎相同。语音模型如果仅分析声音,很可能会给这两个音素序列都分配较高的概率分数。它不具备语法、语境或哪个短语在对话中更可能被说出的判断能力。它只会报告:“根据音频信号,这些是合理的声音序列。”
这正是ASR系统不仅需要语音模型的原因。它产生的模糊性必须由另一个组件来消除。
语音模型的输出提供了转录所需信息的前半部分。后半部分来自语言模型,我们将在下一章中介绍。
语音模型回答的是“声音与音频特征的匹配程度如何?”,而语言模型回答的是“这个词序列在这种语言中出现的可能性有多大?”
最后一个组成部分,即解码器,负责结合这两种信息来源。它寻找一个词序列,该序列既具有较高的语音得分(声音与音频匹配良好),又具有较高的语言模型得分(这些词构成一个合理的句子)。通过权衡两个模型提供的信息,解码器能够正确地选择“recognize speech”而非“wreck a nice beach”,因为前者是更常见且语法上更合理的短语。
总而言之,语音模型是负责让ASR系统立足于声音物理特性的组成部分。它将音频文件中的抽象数值特征转换为有意义的音素概率,为解码器提供开始搜索正确词语所需的重要依据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造