将声波转换为一串数字后,下一步是确定计算机应从这些数据中识别什么。原始音频信号是复杂、连续的波形,但语言由离散的单元构成。为了弥合这一差异,我们需要将言语分解成其最基本的组成单元。这些单元并非字母,而是构成一种语言的独特声音。最小声音单元在语言学中,能够改变词语含义的最小声音单位称为音素。可以把它们看作口语的原子。只改变一个音素就能使一个词变成一个截然不同的词。以“pat”这个词为例。它由三个不同的声音组成:开头的“p”音。中间的“a”音。结尾的“t”音。如果将第一个音“p”替换为“b”音,你会得到一个新词:“bat”。如果将中间的“a”音改为“e”音,你会得到“pet”。如果将结尾的“t”音改为“d”音,你会得到“pad”。/p/、/b/、/t/、/d/、/æ/(如 pat 中的音)和 /ɛ/(如 pet 中的音)都是英语音素的例子。英语大约使用44个音素来构成其所有词语。为什么字母不够用一个常见的混淆点是字母(称为字素)与音素之间的区别。英语字母表的26个字母与我们口语中使用的44种声音没有一对一的关系。这种不一致性是ASR系统侧重于音素而非字母的原因。以下是这种不匹配的几个例子:**一字母,多发音:**字母“c”在“cat”中发出/k/音,但在“city”中发出/s/音。**多字母,一发音:**字母“ph”组合在“phone”中发出单个/f/音。字母“sh”在“ship”中发出/ʃ/音。不发音字母:“know”这个词发音为/noʊ/。“k”和“w”不发音。由于拼写上的这种模糊性,ASR系统不能简单地尝试将音频与字母匹配。它必须首先识别出正在说的音素序列。声音的标准:IPA为了处理这种模糊性,语言学家开发了国际音标(IPA)。IPA是一个标准化系统,其中每个符号精确地代表一个音素。这使得对任何语言的言语进行精确转录成为可能,从而消除了常规拼写中的猜测。你不需要记住IPA,但了解它如何澄清发音很有用。词语拼写音标(IPA)Catc-a-t/kæt/Phonep-h-o-n-e/foʊn/Thought-h-o-u-g-h/ðoʊ/Tought-h-o-u-g-h/tʌf/注意“though”和“tough”,尽管它们的拼写相似,但却有非常不同的音标转录。这是ASR系统必须处理的细节程度。音素在ASR流程中的作用声学模型作为任何ASR系统的核心组成部分,其核心任务正是解决这个问题。它接收处理后的音频数据(我们将在下一章介绍),并计算在任何给定时刻正在说的音素的可能性。该系统不会“听到”说的是“cat”。它会分析音频信号并确定最有可能的声音序列是/k/,接着是/æ/,然后是/t/。这个音素序列随后被传递给流程的后续阶段,这些阶段使用词典(一种字典)和语言模型来确定序列/kæt/对应于“cat”这个词。digraph G { rankdir=TB; graph [fontname="sans-serif", fontsize=10]; node [shape=box, style="rounded,filled", fillcolor="#e9ecef", fontname="sans-serif", fontsize=10]; edge [fontname="sans-serif", fontsize=9]; Audio [label="“ship”的音频信号", fillcolor="#a5d8ff"]; AcousticModel [label="声学模型", fillcolor="#d0bfff"]; Phonemes [label="音素序列\n/ʃ/ /ɪ/ /p/", shape=note, fillcolor="#b2f2bb"]; Lexicon [label="词典与语言模型", fillcolor="#ffd8a8"]; Text [label="文本输出\n\"ship\"", shape=document, fillcolor="#ffc9c9"]; Audio -> AcousticModel [label="分析音频特征"]; AcousticModel -> Phonemes [label="输出最可能的声音"]; Phonemes -> Lexicon [label="将音素与词语匹配"]; Lexicon -> Text [label="选择最可能的词语"]; }ASR系统首先将音频信号转换为音素序列,然后利用这些序列来确定最终的文本。了解音素是基础。它们是连接杂乱、连续的声波范畴与结构化、离散的词语和句子范畴的桥梁。在后续章节中,你将了解到计算机如何从音频中提取特征以识别这些声音,以及模型如何被训练来完成这种惊人的转换。