趋近智
将声波转换为一串数字后,下一步是确定计算机应从这些数据中识别什么。原始音频信号是复杂、连续的波形,但语言由离散的单元构成。为了弥合这一差异,我们需要将言语分解成其最基本的组成单元。这些单元并非字母,而是构成一种语言的独特声音。
在语言学中,能够改变词语含义的最小声音单位称为音素。可以把它们看作口语的原子。只改变一个音素就能使一个词变成一个截然不同的词。
以“pat”这个词为例。它由三个不同的声音组成:
如果将第一个音“p”替换为“b”音,你会得到一个新词:“bat”。如果将中间的“a”音改为“e”音,你会得到“pet”。如果将结尾的“t”音改为“d”音,你会得到“pad”。/p/、/b/、/t/、/d/、/æ/(如 pat 中的音)和 /ɛ/(如 pet 中的音)都是英语音素的例子。英语大约使用44个音素来构成其所有词语。
一个常见的混淆点是字母(称为字素)与音素之间的区别。英语字母表的26个字母与我们口语中使用的44种声音没有一对一的关系。这种不一致性是ASR系统侧重于音素而非字母的原因。
以下是这种不匹配的几个例子:
由于拼写上的这种模糊性,ASR系统不能简单地尝试将音频与字母匹配。它必须首先识别出正在说的音素序列。
为了处理这种模糊性,语言学家开发了国际音标(IPA)。IPA是一个标准化系统,其中每个符号精确地代表一个音素。这使得对任何语言的言语进行精确转录成为可能,从而消除了常规拼写中的猜测。
你不需要记住IPA,但了解它如何澄清发音很有用。
| 词语 | 拼写 | 音标(IPA) |
|---|---|---|
| Cat | c-a-t | /kæt/ |
| Phone | p-h-o-n-e | /foʊn/ |
| Though | t-h-o-u-g-h | /ðoʊ/ |
| Tough | t-h-o-u-g-h | /tʌf/ |
注意“though”和“tough”,尽管它们的拼写相似,但却有非常不同的音标转录。这是ASR系统必须处理的细节程度。
声学模型作为任何ASR系统的核心组成部分,其核心任务正是解决这个问题。它接收处理后的音频数据(我们将在下一章介绍),并计算在任何给定时刻正在说的音素的可能性。
该系统不会“听到”说的是“cat”。它会分析音频信号并确定最有可能的声音序列是/k/,接着是/æ/,然后是/t/。这个音素序列随后被传递给流程的后续阶段,这些阶段使用词典(一种字典)和语言模型来确定序列/kæt/对应于“cat”这个词。
ASR系统首先将音频信号转换为音素序列,然后利用这些序列来确定最终的文本。
了解音素是基础。它们是连接杂乱、连续的声波范畴与结构化、离散的词语和句子范畴的桥梁。在后续章节中,你将了解到计算机如何从音频中提取特征以识别这些声音,以及模型如何被训练来完成这种惊人的转换。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造