语音识别系统依赖于将声波转换为特征向量序列。高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) 通常用于表示语音的独特特点。语音模型整合这些概念,在完整的语音识别系统中扮演着主要角色。语音模型是经过处理的音频信号与语言层面之间的桥梁。它的任务不是理解单词或句子,而是听取一小段音频,并判断它最像哪个基本语音单元,即音素。可以将语音模型看作一位高度专业的语音学家。如果您给它一个25毫秒音频片段的特征向量,它无法告诉您说话者说的是“cat”还是“car”。然而,它可以告诉您该声音是/k/、/æ/或/t/的概率。它为每个音频帧执行此计算,从而生成一个连续的音素概率流。输入、处理与输出为了理解语音模型的功能,明确它的输入和输出内容非常有帮助。输入: 模型接收在信号处理阶段生成的特征向量序列(例如,MFCC)。每个向量都是原始音频中一个非常短的片段的数值概括。处理: 在模型内部,无论是传统的GMM-HMM系统还是现代神经网络,都会发生统计比较。模型经过数千小时的带标注语音训练,因此它已经习得了每种语言中每个音素的典型特征向量模式。它将传入的特征向量与这些习得的模式进行比较。输出: 模型输出一组概率。对于每个音频帧,它会生成该帧对应于每个可能音素的可能性。这就是我们之前提到的概率,通常写为$P(\text{音频特征} | \text{音素})$。这个概率流随后被传递给流水线中的下一个主要组成部分:解码器。下图展示了语音模型在整个ASR系统中的位置。它接收特征提取的输出,并为解码器提供重要输入。digraph G { rankdir=TB; graph [fontname="Arial", bgcolor="transparent"]; node [shape=box, style="filled,rounded", fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=9]; subgraph cluster_asr { label="ASR 流水线"; style="rounded"; fontname="Arial"; fontsize=12; bgcolor="#f8f9fa"; Audio [label="输入音频\n(例如,WAV文件)", fillcolor="#d0bfff"]; Features [label="特征提取\n(例如,MFCC)", fillcolor="#a5d8ff"]; AM [label="语音模型", style="filled,rounded,bold", color="#f03e3e", penwidth=2, fillcolor="#ffc9c9"]; LM [label="语言模型", fillcolor="#a5d8ff"]; Decoder [label="解码器", fillcolor="#96f2d7"]; Text [label="文本输出\n('hello world')", fillcolor="#b2f2bb"]; Audio -> Features [label="已处理"]; Features -> AM [label="特征向量"]; AM -> Decoder [label="音素概率"]; LM -> Decoder [label="词序列\n概率"]; Decoder -> Text [label="最可能的文本"]; } }ASR流水线,展示了语音模型的核心地位。它将特征向量转换为音素概率,解码器会结合语言模型的输入来使用这些概率。提供证据,而非答案初学者常有的一个误区是认为语音模型的功能超出了实际。语音模型只是证据来源之一,其输出本身就带有模糊性。请考虑一个典型例子,以下两个短语听起来非常相似:“recognize speech”“wreck a nice beach”这两个短语的音素序列几乎相同。语音模型如果仅分析声音,很可能会给这两个音素序列都分配较高的概率分数。它不具备语法、语境或哪个短语在对话中更可能被说出的判断能力。它只会报告:“根据音频信号,这些是合理的声音序列。”这正是ASR系统不仅需要语音模型的原因。它产生的模糊性必须由另一个组件来消除。与语言模型配合使用语音模型的输出提供了转录所需信息的前半部分。后半部分来自语言模型,我们将在下一章中介绍。语音模型回答的是“声音与音频特征的匹配程度如何?”,而语言模型回答的是“这个词序列在这种语言中出现的可能性有多大?”最后一个组成部分,即解码器,负责结合这两种信息来源。它寻找一个词序列,该序列既具有较高的语音得分(声音与音频匹配良好),又具有较高的语言模型得分(这些词构成一个合理的句子)。通过权衡两个模型提供的信息,解码器能够正确地选择“recognize speech”而非“wreck a nice beach”,因为前者是更常见且语法上更合理的短语。总而言之,语音模型是负责让ASR系统立足于声音物理特性的组成部分。它将音频文件中的抽象数值特征转换为有意义的音素概率,为解码器提供开始搜索正确词语所需的重要依据。