本质上,自动语音识别(ASR)是一种让计算机理解并转录人类语音的技术。你每天都会接触ASR系统,无论是在手机上询问语音助手天气,听写短信,还是在视频通话中看到实时字幕。ASR系统的主要作用是将声学信号(即人说话的声音)转换为文本形式的词语序列。这个过程可以看作一个简单的流程:语音输入,文字输出。digraph G { rankdir=TB; splines=ortho; bgcolor="transparent"; node [shape=box, style="rounded,filled", fontname="sans-serif", fillcolor="#a5d8ff", color="#1c7ed6"]; edge [color="#495057", penwidth=1.5]; "口语音频" -> "ASR System" [label=" 输入"]; "ASR System" -> "书面文字" [label=" 输出"]; }自动语音识别系统的基本流程。尽管目标简单,但实现起来却非常复杂。人类语音充满了多样性。我们每个人说话都有独特的口音、不同的语速和变化的语调。ASR系统必须足够强大以应对这种自然多样性。它还必须应对背景噪音、麦克风质量和说话人重叠等外部因素。ASR的两个主要问题为了达成其目标,ASR系统需要解决两个主要问题:声学问题:发出了什么声音? 系统必须分析原始音频波形,并将其片段映射到语言的基本发音单元,即音素。例如,它需要识别“cat”这个词中的/k/、/æ/和/t/音。这是声学模型的作用。语言问题:哪些词语构成了可能的句子? 一旦系统有了可能的音素序列,它必须确定这些声音所代表的最可能的词语序列。这很有挑战性,因为许多词语和短语听起来很相似。例如,“recognize speech”听起来与“wreck a nice beach”非常相似。系统使用语言模型,该模型理解词语以特定顺序出现的概率,以选择最合理的选项。ASR的应用场景ASR是一种奠定性技术,支撑着许多行业中的广泛应用:语音助手: 亚马逊 Alexa、谷歌助手和苹果 Siri 等系统使用ASR来理解用户指令。听写与转录: 将口语转换为文本的软件,用于文档、电子邮件或病历。车载系统: 在驾驶时通过语音指令控制导航、音乐和拨打电话。辅助功能工具: 为听力障碍者提供实时字幕。呼叫中心自动化: 转录客户通话,用于分析、质量保证或支持自动化应答系统。语音技术中的ASR区分ASR与其他同样处理人类语音的相关技术会有所帮助。文本转语音(TTS): 这是ASR的逆过程。TTS系统将书面文本作为输入,生成可听的合成语音作为输出。说话人识别: 这项技术侧重于识别谁在说话,而不是说了什么。它用于身份验证,比如“语音密码”。自然语言理解(NLU): NLU是ASR之后的下一步。语音转换为文本后,NLU系统旨在确定用户的意图或词语背后的含义。例如,ASR转录“What's the forecast for tomorrow?”后,NLU模型会判断出用户在询问天气信息。总而言之,自动语音识别是充当计算机耳朵的技术,它提供了将人类语音转换为结构化文本格式的第一个重要步骤。这种转换使得无数其他应用能够处理并根据我们的口语指令采取行动。在接下来的章节中,我们将了解这项技术是如何发展的,并细致分析使其运转的组成部分。