趋近智
高斯混合模型(GMM)可以对单个音素的音频特征分布进行建模,而隐马尔可夫模型(HMM)可以表示序列。它们各自独立使用时,每个模型都有一个重要的局限。GMM对时间或序列没有感知;它只能告诉您单个音频帧与某个音素声音特征的匹配程度如何。另一方面,HMM能处理序列,但没有固有的方式将其状态与音频信号的连续、复杂数据关联起来。
解决方案是将它们结合成一个单一、功能更强的架构:GMM-HMM。这种混合模型多年来一直是语音识别领域的标准方法,为理解ASR系统的工作方式提供了坚实的基础。
可以将HMM看作是一个状态机,其中每个状态代表一个音素。为使系统正常运行,它需要在每一步回答两个问题:
第二个问题就是GMM发挥作用的地方。在GMM-HMM中,HMM的每个状态都与其自己的GMM相关联。特定音素(如/t/)的GMM仅针对与/t/音对应的音频帧进行训练。
当ASR系统评估一段音频时,HMM会提出一个状态(音素)序列。对于序列中的每个状态,它会请求相应的GMM计算观察到的音频特征的概率。这个概率被称为发射概率。
因此,HMM处理序列(P(下一个状态∣当前状态)),而GMM处理每个状态下的观测似然(P(音频特征∣状态))。
让我们追踪一下GMM-HMM将如何处理单词“cat”(/k/ /æ/ /t/)的音频。系统使用一个HMM,其状态与这些音素相对应。
/k/: 最初的几帧音频(对应“k”音)被输入到系统中。HMM处于/k/状态。专门为/k/音素训练的GMM评估这些帧。它计算出一个高概率,确认这些音频特征与/k/音良好匹配。其他音素(如/æ/或/s/)的GMM对这些相同帧将返回非常低的概率。/æ/: HMM从其训练数据中得知,从/k/到/æ/的转移在英语中很常见。它转移到/æ/状态。/æ/: 下一组音频帧(对应“a”音)现在由与/æ/状态关联的GMM评估。这个GMM找到强烈的匹配并输出高发射概率。/t/: 该过程重复进行。HMM转移到/t/状态,并且/t/的GMM成功验证了单词的最终音频帧。路径/k/ -> /æ/ -> /t/的总概率是通过将沿途的转移概率和发射概率相乘计算得出的。解码器(您将在后面学习到它)负责寻找具有最高总概率的状态序列。
下图描绘了这种关系。每个HMM状态代表一个音素,其中包含一个GMM,负责计算该时刻观测到音频特征的概率。
HMM确定音素状态的可能序列,而每个状态内的GMM计算观测到的音频特征与特定音素匹配的概率。
通过结合这两个模型,GMM-HMM系统能够有效建模单个语音的统计特性以及语言的序列化、时间依赖性。这种架构被证明极其有效,在端到端深度学习方法兴起之前,成为几十年来语音识别领域的主力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造