趋近智
能够与机器对话并让其理解你的话语,这或许让人感觉是最近才出现的能力,但对这一目标的追求早在半个多世纪前就开始了。自动语音识别(ASR)的发展历程表明,它从简单的数字识别器稳步演变为驱动当今语音助手的复杂系统。理解这一演变过程有助于弄清ASR系统为何以目前的方式构建。
20世纪50年代和60年代,语音识别的首次尝试虽有雄心,但受到严格限制。1952年,贝尔实验室开发了“Audrey”系统,这台机器能够识别从零到九的口语数字。然而,它有一个显著的局限性:只能识别其创造者的声音。十年后,即1962年,IBM演示了其“Shoebox”机器,它能理解16个英语单词和相同的数字集。
这些早期系统是基于声学模式匹配。它们分析语音信号不同频带中存在的能量,并尝试将其与预先录制的模板进行匹配。这种方法适用于:
尽管存在这些局限,这些早期项目证明了机器识别语音的可行性。
20世纪70年代是一个重要转折点。研究人员不再试图匹配整个声音模式,而是开始应用统计方法。这项工作得到了美国政府机构DARPA的大量资助,促成了隐马尔可夫模型(HMM)的采用。
隐马尔可夫模型是一种统计模型,将语音视为一系列声音。它不匹配整个单词,而是计算特定音频特征序列对应于音素(声音的基本单位)序列的概率。这是一种更灵活、更有效的方法,能够处理人类语音的可变性。隐马尔可夫模型能够模拟声音如何从一个过渡到下一个,这是识别连续、流畅语音的重要一步。
近二十年来,从20世纪90年代到21世纪00年代末,自动语音识别的标准方法是将隐马尔可夫模型与另一种统计工具——高斯混合模型(GMM)结合使用。
这种GMM-HMM组合功能强大,足以构建出首批商业成功的自动语音识别产品,例如Dragon NaturallySpeaking。这些系统能够处理大词汇量,并且是与说话人无关的,这意味着它们无需特定训练即可为大多数用户服务。
语音识别技术发展的重要时期时间线。
2010年左右,该方面又发生了一次重大变化,深度学习获得了广泛应用。研究人员发现,深度神经网络(DNN)在学习音频特征与语音之间的复杂关联方面表现出色。
最初,深度神经网络被用于替代传统GMM-HMM系统中的GMM部分。仅此一项改变就使词错误率(WER)(衡量自动语音识别准确性的标准指标)显著降低。
最近,研究转向了端到端模型。这些是单一的、大型神经网络,它们能直接从音频特征学习如何将语音转录成文本,无需单独的声学、发音和语言建模组件。这种方法简化了自动语音识别流程,并将性能提升到新的水平。手机上的语音助手、智能音箱及其他设备,都由这些现代的、基于深度学习的系统提供支持。这段历史为我们接下来考察的组件奠定了基础,很多组件都源于这些早期系统。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造