趋近智
并非所有语音识别任务都相同。旨在理解“播放”等单个语音指令的系统,其运作方式与转录完整口语句子的系统大不相同。这种区分产生了自动语音识别(ASR)系统的两大主要分类:孤立词识别和连续语音识别。弄清它们之间的不同,是理解语音转文本所涉难度的一个起始点。
孤立词识别是这两种任务中较为简单的一种。这类系统旨在识别一个单词或一个简短、固定的短语,这些词语或短语前后带有特意的停顿。系统所能识别的词汇(或词汇集)通常较少且预先设定。
想象一下自动化电话系统中的语音控制菜单。当它提示你“说‘账单’进行账单查询或‘支持’寻求技术帮助”时,它希望你清晰地单独说出其中一个特定词语。
这种方法的首要优点是其简易性。词语周围的静音为需要分析的音频提供了清晰的起始和结束信号。系统不必解决判断一个词语在哪里结束、下一个词语在哪里开始的难题。
孤立词识别的常见应用有:
孤立命令的音频波形(上方)有清晰的静音间隔,而连续语音(下方)则形成一个不间断的信号。
连续语音识别是一项更具难度且更复杂的任务。它旨在理解并转录自然、流畅的人类语音,其中词语之间没有强制停顿。亚马逊Alexa等虚拟助手或谷歌文档语音输入等听写软件便是以此方式运作的。
此处面临的挑战明显更大。
这两种识别类型之间的区分,对于理解自动语音识别系统尝试解决问题的范围非常重要。
| 特点 | 孤立词识别 | 连续语音识别 |
|---|---|---|
| 输入方式 | 单个词语,有明显停顿 | 自然流畅的句子,无停顿 |
| 复杂度 | 较低 | 较高 |
| 主要难题 | 从列表中正确识别词语 | 寻找词语边界并解决歧义 |
| 词汇量 | 通常较少且固定 | 通常非常大且开放 |
| 应用示例 | 设备语音命令(例如,“下一个”) | 听写邮件或向虚拟助手提问 |
总而言之,孤立词识别在于识别单个项目,而连续语音识别在于转录一系列连贯的项目。尽管孤立词系统对特定应用有其用处,但多数现代自动语音识别技术致力于处理连续语音这一复杂且多样的难题。我们将在后续章节中讲解的技术主要针对这项更具挑战性的任务。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造