对ASR系统来说,一个语音句子最初只是一个复杂的波形。为了将其转录成文本,系统必须识别该信号中包含的语言规律。语音学和音系学在此提供了基础性的结构。我们不把音频视为无序的数据流,而是可以根据人类语音的基本组成部分对其进行分析。音素:声音的抽象构成要素语言中最基本的、能区分意义的声音单位称为音素。可以把音素看作口语的原子要素。改变一个词中的音素会完全改变该词的意义。例如,思考一下“pat”、“bat”和“cat”这几个词。它们之间唯一的区别是起始音。由/p/、/b/和/k/表示的声音在英语中是不同的音素,因为用一个替换另一个会产生一个新词。斜杠,例如/p/,用于表示音素是一种抽象的声音单位,与可能代表它的字母表中的字母不同。一种语言拥有一组有限的音素。例如,美式英语大约有44个音素,包括辅音、短元音、长元音和双元音(从一个位置滑向另一个位置的元音,例如“buy”中的/aɪ/音)。ASR系统的第一个主要任务,无论是显式还是隐式,都是从音频信号中识别出这些音素的序列。同位音:声音的物理变体音素是抽象单位,而我们实际发出的声音称为音子。一个音素在词语中根据其上下文,可以以略微不同的方式物理发音。一个音素的这些可预测的变体称为同位音。英语中一个经典的例子是音素/p/。在词语**“pin”中,/p/音是送气的**。这意味着它后面跟着一小股气流。这个同位音的语音记号是[pʰ]。在词语**“spin”中,/p/音是不送气的**。没有伴随的气流。这个同位音的记号是[p]。对于以英语为母语的人来说,[pʰ]和[p]听起来像是同一个“p”音。我们的大脑会自动将它们归类为单个音素/p/。然而,对于分析波形的机器来说,这两个声音在声学上是不同的。那股气流的存在与否在音频信号中产生了可测量的差异。这种关系说明了语音识别中的一个核心难题。ASR模型必须学习到,这些声学上不同的同位音[pʰ]和[p]都对应于相同的音素/p/,并最终对应于最终转录中的相同字母‘p’。digraph G { rankdir=TB; graph [fontname="Helvetica", bgcolor="transparent"]; node [shape=box, style="rounded,filled", fontname="Helvetica", fillcolor="#e9ecef", color="#495057"]; edge [fontname="Helvetica", color="#495057"]; subgraph cluster_phoneme { label="抽象音素"; style="rounded"; bgcolor="#f8f9fa"; color="#ced4da"; p_phoneme [label="/p/", shape=ellipse, style="filled", fillcolor="#a5d8ff"]; } subgraph cluster_allophone { label="上下文实现(同位音)"; style="rounded"; bgcolor="#f8f9fa"; color="#ced4da"; p_aspirated [label="[pʰ](送气)", fillcolor="#d0bfff"]; p_unasp [label="[p](不送气)", fillcolor="#d0bfff"]; } subgraph cluster_word { label="示例词"; style="rounded"; bgcolor="#f8f9fa"; color="#ced4da"; pin [label="'pin'"]; spin [label="'spin'"]; } p_phoneme -> p_aspirated [label="在词首位置"]; p_phoneme -> p_unasp [label="在/s/之后"]; p_aspirated -> pin; p_unasp -> spin; }音素/p/是一个抽象的声音类别。根据它在词语中的位置,它可以实现为不同的同位音,例如“pin”中的送气[pʰ]或“spin”中的不送气[p]。共同发音:声音边界的模糊化语音中的变异因共同发音而变得更加复杂。这是一种声音的发音受到其相邻声音影响的现象。人类语音不是由离散的、完全分离的音子组成的序列。相反,声音会自然地连接在一起。例如,大声说出“ten”和“tenth”这两个词,并注意你在发/n/音时舌头的位置。在“ten”中,你的舌头会触碰到上门牙后面的齿龈。在“tenth”中,你的舌头会向前移动,预期后面的“th”音 (/θ/)。这种预期性移动改变了/n/音的声学属性。共同发音意味着同一个音素几乎每次发出时都可能具有不同的声学特征。为何这对于ASR很重要理解音素、同位音和共同发音不仅仅是一项学术活动。它突出了语音识别中的主要难题:语音信号中很大的变异性。ASR系统不能简单地为每个声音记忆单一的声学模式。它必须学习一种灵活的表示方法,以适应以下情况:同位音变体: 同音素的不同物理发音。共同发音影响: 相邻声音的影响。说话人差异: 音高、口音和语速的变异。现代ASR深度学习模型功能强大,因为它们可以直接从数据中学习处理这种变异性。通过对数千小时来自不同说话人的语音进行训练,这些模型学习将各种声学模式映射到正确的语言单位,无论是音素,还是在端到端系统中更常见的字符或词语。我们将在下一章讨论的特征提取技术,旨在创建一种对这种变异更具抵抗力的语音表示方法。