趋近智
高斯混合模型(GMM)和隐马尔可夫模型(HMM)的结合多年来一直是语音识别的主力,但它们也存在一定的局限性。例如,GMM难以有效建模语音数据中高度复杂和非线性的模式。HMM对状态独立性的假设,对于人类语言的流畅性而言也可能过于严格。
为应对这些挑战,研究人员转向了一种更有效的工具:神经网络。神经网络是一种计算系统,它学习识别数据中的模式。对于声学建模来说,这意味着它能够以比传统方法高得多的准确度,学习音频特征到音素之间的精密映射。
第一个主要转变是**混合深度神经网络-隐马尔可夫模型(DNN-HMM)**的出现。在这种架构中,经典系统中的GMM组件被深度神经网络(DNN)取代,但HMM得以保留。
其运作方式如下:
这种混合方法结合了DNN卓越的模式识别能力和HMM处理序列数据的经证实能力,从而显著降低了词错误率。
传统GMM-HMM架构与混合DNN-HMM模型的比较图。DNN取代GMM,为HMM提供更准确的音素概率。
混合模型的成功仅仅是个开始。现代自动语音识别(ASR)系统已转向端到端模型,这进一步简化了流程。端到端系统不再为声学建模、发音和语言建模设置独立组件,而是使用单一的大型神经网络来学习从音频到文本的直接映射。
此方面有两种重要的方案:
这些端到端系统已成为领先语音识别的标准,因为它们通常能提供更高的准确度,并大幅简化训练和部署过程。在本课程的后续部分,当我们讨论声学模型时,你可以假定它们基于神经网络,因为这反映了该领域的当前情况。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造