语音单位与言语基本组成部分简介

将声波转换为一串数字后，下一步是确定计算机应从这些数据中识别什么。原始音频信号是复杂、连续的波形，但语言由离散的单元构成。为了弥合这一差异，我们需要将言语分解成其最基本的组成单元。这些单元并非字母，而是构成一种语言的独特声音。

最小声音单元

在语言学中，能够改变词语含义的最小声音单位称为音素。可以把它们看作口语的原子。只改变一个音素就能使一个词变成一个截然不同的词。

以“pat”这个词为例。它由三个不同的声音组成：

开头的“p”音。
中间的“a”音。
结尾的“t”音。

如果将第一个音“p”替换为“b”音，你会得到一个新词：“bat”。如果将中间的“a”音改为“e”音，你会得到“pet”。如果将结尾的“t”音改为“d”音，你会得到“pad”。/p/、/b/、/t/、/d/、/æ/（如 pat 中的音）和 /ɛ/（如 pet 中的音）都是英语音素的例子。英语大约使用44个音素来构成其所有词语。

为什么字母不够用

一个常见的混淆点是字母（称为字素）与音素之间的区别。英语字母表的26个字母与我们口语中使用的44种声音没有一对一的关系。这种不一致性是ASR系统侧重于音素而非字母的原因。

以下是这种不匹配的几个例子：

**一字母，多发音：**字母“c”在“cat”中发出/k/音，但在“city”中发出/s/音。
**多字母，一发音：**字母“ph”组合在“phone”中发出单个/f/音。字母“sh”在“ship”中发出/ʃ/音。
不发音字母：“know”这个词发音为/noʊ/。“k”和“w”不发音。

由于拼写上的这种模糊性，ASR系统不能简单地尝试将音频与字母匹配。它必须首先识别出正在说的音素序列。

声音的标准：IPA

为了处理这种模糊性，语言学家开发了国际音标（IPA）。IPA是一个标准化系统，其中每个符号精确地代表一个音素。这使得对任何语言的言语进行精确转录成为可能，从而消除了常规拼写中的猜测。

你不需要记住IPA，但了解它如何澄清发音很有用。

词语	拼写	音标（IPA）
Cat	c-a-t	/kæt/
Phone	p-h-o-n-e	/foʊn/
Though	t-h-o-u-g-h	/ðoʊ/
Tough	t-h-o-u-g-h	/tʌf/

注意“though”和“tough”，尽管它们的拼写相似，但却有非常不同的音标转录。这是ASR系统必须处理的细节程度。

音素在ASR流程中的作用

声学模型作为任何ASR系统的核心组成部分，其核心任务正是解决这个问题。它接收处理后的音频数据（我们将在下一章介绍），并计算在任何给定时刻正在说的音素的可能性。

该系统不会“听到”说的是“cat”。它会分析音频信号并确定最有可能的声音序列是/k/，接着是/æ/，然后是/t/。这个音素序列随后被传递给流程的后续阶段，这些阶段使用词典（一种字典）和语言模型来确定序列/kæt/对应于“cat”这个词。

ASR系统首先将音频信号转换为音素序列，然后利用这些序列来确定最终的文本。

了解音素是基础。它们是连接杂乱、连续的声波范畴与结构化、离散的词语和句子范畴的桥梁。在后续章节中，你将了解到计算机如何从音频中提取特征以识别这些声音，以及模型如何被训练来完成这种惊人的转换。

参考文献

Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky and James H. Martin, 2025 - 这本教材涵盖了语音识别的理论和实践方面，其中专门章节讨论了语音学、音系学和声学建模，这对于理解音素在ASR系统中如何处理至关重要。
Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet, International Phonetic Association, 1999 (Cambridge University Press) DOI: 10.1017/CBO9780511521759 - 这是国际音标（IPA）的官方指南，提供了所有IPA符号的详细描述、其用法以及语音转写的原则，与本节中对IPA的解释直接相关。