并非所有语音识别任务都相同。旨在理解“播放”等单个语音指令的系统,其运作方式与转录完整口语句子的系统大不相同。这种区分产生了自动语音识别(ASR)系统的两大主要分类:孤立词识别和连续语音识别。弄清它们之间的不同,是理解语音转文本所涉难度的一个起始点。孤立词识别孤立词识别是这两种任务中较为简单的一种。这类系统旨在识别一个单词或一个简短、固定的短语,这些词语或短语前后带有特意的停顿。系统所能识别的词汇(或词汇集)通常较少且预先设定。想象一下自动化电话系统中的语音控制菜单。当它提示你“说‘账单’进行账单查询或‘支持’寻求技术帮助”时,它希望你清晰地单独说出其中一个特定词语。这种方法的首要优点是其简易性。词语周围的静音为需要分析的音频提供了清晰的起始和结束信号。系统不必解决判断一个词语在哪里结束、下一个词语在哪里开始的难题。孤立词识别的常见应用有:命令控制系统: 软件或设备的简单命令,如“开始”、“停止”、“下一个”或“打印”。自动化电话菜单: 导航交互式语音应答(IVR)系统。简单语音拨号: 说出单个名字,如“给妈妈打电话”。{"layout":{"height":300,"xaxis":{"title":"时间","showgrid":false,"zeroline":false,"showticklabels":false},"yaxis":{"title":"振幅","showgrid":false,"zeroline":false,"showticklabels":false},"title":"孤立语音与连续语音波形","showlegend":false,"annotations":[{"x":0.2,"y":0.8,"xref":"paper","yref":"paper","text":"孤立词:“灯”...“开”","showarrow":false,"font":{"size":14}},{"x":0.2,"y":0.3,"xref":"paper","yref":"paper","text":"连续语音:“把灯打开”","showarrow":false,"font":{"size":14}}]},"data":[{"x":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,25,26,27,28,29,30,31,32,33,34,35,36],"y":[0,0.2,0.8,0.5,-0.3,-0.7,-0.1,0,0,0,0,0,0,0,0,0,0.3,0.9,1,0.6,-0.4,-0.8,-0.2,0.1,0,0,0],"type":"scatter","mode":"lines","line":{"color":"#339af0","width":2},"name":"孤立词"}, {"x":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36],"y":[-0.1,-0.2,-0.4,-0.7,-0.3,0.2,0.5,0.8,0.4,0.1,-0.3,-0.6,-0.9,-0.5,0.1,0.6,0.9,1.0,0.7,0.2,-0.2,-0.5,-0.8,-0.4,0,0.4,0.7,0.3,-0.1,-0.5,-0.7,-0.3,0.1,0.2,0.1,0],"type":"scatter","mode":"lines","line":{"color":"#f06595","width":2},"name":"连续","yaxis":"y2"}],"layout":{"height":300,"xaxis":{"title":"时间","showgrid":false,"zeroline":false,"showticklabels":false},"yaxis":{"domain":[0.55,1],"title":"振幅","showgrid":false,"zeroline":false,"showticklabels":false},"yaxis2":{"domain":[0,0.45],"title":"振幅","showgrid":false,"zeroline":false,"showticklabels":false},"title":{"text":"孤立语音与连续语音波形","x":0.5},"showlegend":false,"annotations":[{"x":0.5,"y":0.9,"xref":"paper","yref":"paper","text":"孤立命令:“灯”...“开”","showarrow":false,"font":{"size":14}},{"x":0.5,"y":0.2,"xref":"paper","yref":"paper","text":"连续语音:“把灯打开”","showarrow":false,"font":{"size":14}}]}}孤立命令的音频波形(上方)有清晰的静音间隔,而连续语音(下方)则形成一个不间断的信号。连续语音识别连续语音识别是一项更具难度且更复杂的任务。它旨在理解并转录自然、流畅的人类语音,其中词语之间没有强制停顿。亚马逊Alexa等虚拟助手或谷歌文档语音输入等听写软件便是以此方式运作的。此处面临的挑战明显更大。词语切分: 系统首先必须在持续的声音流中分辨出每个词语的起始和结束。与孤立词不同,这里没有整齐的静音间隔可供参考。协同发音: 在自然语音中,一个音的读法会受到其前后音的影响。例如,你在“did you”(听起来常像“did-joo”)和“did that”这两个短语中发“d”音的方式略有不同。系统必须能够处理这些差异。歧义: 连续语音会引入歧义,这需要通过语言上下文来解决。例如,“recognize speech”(识别语音)和“wreck a nice beach”(毁了一个好海滩)这两个短语听起来可能几乎一样。自动语音识别系统不只需要声学信息来做出正确判断;它还需要知道“recognize speech”是一个更可能出现的词语序列。并列比较这两种识别类型之间的区分,对于理解自动语音识别系统尝试解决问题的范围非常重要。特点孤立词识别连续语音识别输入方式单个词语,有明显停顿自然流畅的句子,无停顿复杂度较低较高主要难题从列表中正确识别词语寻找词语边界并解决歧义词汇量通常较少且固定通常非常大且开放应用示例设备语音命令(例如,“下一个”)听写邮件或向虚拟助手提问总而言之,孤立词识别在于识别单个项目,而连续语音识别在于转录一系列连贯的项目。尽管孤立词系统对特定应用有其用处,但多数现代自动语音识别技术致力于处理连续语音这一复杂且多样的难题。我们将在后续章节中讲解的技术主要针对这项更具挑战性的任务。