趋近智
语音信号,无论是原始波形还是梅尔频谱等提取出的特征,都具有固有的序列属性。语音的含义随时间展开,理解或生成语音需要能有效捕捉时间依赖的模型,这些依赖常跨越较长的时间段。深度学习为序列建模提供了强大的工具,构成了现代自动语音识别(ASR)和文本转语音(TTS)系统的核心。前馈网络虽然对分类有用,但其结构不具备处理变长序列和维持过往事件记忆的能力。专门用于处理序列数据的结构对高级语音处理非常重要。
循环神经网络(RNN)是首批专门为序列数据设计的深度学习结构之一。RNN 的特点是其循环连接:给定时间步的输出不仅取决于该时间步的输入,还取决于网络从上一时间步的内部状态(或“记忆”)。这使得网络能够保留序列中过去元素的信息。
考虑处理一系列音频特征向量 x=(x1,x2,...,xT)。在每个时间步 t,RNN 根据当前输入 xt 和前一个隐藏状态 ht−1 更新其隐藏状态 ht。典型的公式是:
ht=tanh(Whhht−1+Wxhxt+bh)Whh 和 Wxh 为权重矩阵,bh 为偏置向量,而 tanh 是一个常用的激活函数。然后可以根据隐藏状态计算时间步 t 的输出 yt:
yt=Whyht+by一个简单 RNN 处理序列,随时间展开的图示。隐藏状态 ht 取决于当前输入 xt 和前一个隐藏状态 ht−1。
尽管简单,标准 RNN 在学习长距离依赖时存在困难。在时间反向传播(训练 RNN 的过程)期间,梯度可能消失(变得极小)或爆炸(变得极大),这使得模型难以学到序列中相距较远元素之间的联系。这对抗语音处理而言是一个重要限制,因为依赖关系可能跨越多个帧(例如,在 ASR 中理解上下文以消除歧义,或在 TTS 中保持一致的韵律)。
为解决梯度消失问题并提高捕捉长期依赖的能力,门控 RNN 变体得到了发展。最具代表性的是长短期记忆网络(LSTM)和门控循环单元(GRU)。
相比简单 RNN,LSTM 引入了更复杂的内部结构。它们在隐藏状态 (ht) 旁边加入了一个专用的单元状态 (ct)。信息进出单元状态以及对其的更新,由三个主要门控制:
这些门本质上是小型神经网络(通常带有 sigmoid 或 tanh 激活函数),它们根据当前输入和前一状态学习选择性地通过、阻断或修改信息。这种门控机制使 LSTM 能够比简单 RNN 在更长的时间尺度上保持相关信息。
LSTM 单元图,突出显示单元状态 (ct) 和调节信息流动的门(遗忘、输入、输出)。实际实现涉及具体的矩阵运算。
GRU 是 LSTM 的一种较新、稍简单的替代方案。它们也使用门控机制来控制信息流动,但只有两个门且没有独立的单元状态:
GRU 在许多任务上(包括语音处理)通常与 LSTM 表现相当,同时由于其结构更简单,计算成本略低。在 Transformer 结构兴起之前,LSTM 和 GRU 都是 ASR 声学模型、语言模型以及 TTS 系统各种组件中的标准构成要素。
尽管 LSTM 和 GRU 改进了对长序列的处理,但用它们构建的序列到序列(Seq2Seq)模型(常用于 ASR 和 TTS)通常依赖于将整个输入序列压缩成一个固定大小的上下文向量。这个向量代表输入的“含义”,随后被传递给解码器以生成输出序列。这种固定大小的向量成为信息瓶颈,尤其对于语音中常见的长输入序列。
注意力机制提供了一种克服此瓶颈的方法。解码器不再仅仅依赖单个上下文向量,而是在输出生成的每个步骤中,“关注”整个输入序列的不同部分。
工作方式:
这使得解码器在生成输出序列时,能够动态地关注输入音频(对于 ASR)或输入文本(对于 TTS)中最相关的部分,显著提升了性能,尤其对于长语段和复杂的对齐。注意力机制成为 ASR 和 TTS 领域先进编解码器模型中的一个基本组成部分。
Transformer 结构最初为机器翻译而引入,通过表明循环并非严格必需,革新了序列建模。Transformer 完全依赖注意力机制,特别是自注意力机制,来建模输入和输出序列内的依赖关系。
组成部分:
单个 Transformer 块的简化结构,显示了多头注意力和前馈网络层,每个层之后都有残差连接和层归一化。
优点:
Transformer 及其变体(如 Conformer,它结合了 Transformer 和卷积)已成为先进 ASR 系统(例如,用于声学建模)和 TTS 系统(例如,用于声学特征预测的 Transformer TTS)中的主要结构。它们是后续章节中讨论的许多先进端到端模型的依据。
理解这些序列结构,从 RNN 到强大的 Transformer,非常重要。它们提供了学习语音信号和文本序列中固有复杂时间模式的机制,使得能够开发出高性能和自然交互的复杂 ASR 和 TTS 系统。这些结构被整合到端到端 ASR 模型(第二章)和高级 TTS 模型(第四章)中的具体方式,将直接建立在这些原理之上。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造