趋近智
传统声码器主要在频域操作并依赖信号处理启发法,而神经网络声码的首批重要进展则源于那些能在时域中逐样本直接生成原始音频波形的模型。这些被称为自回归波形模型。
传统声码器主要在频域工作并依赖于信号处理的启发式方法,但神经声码领域最初的重大进展来自于直接在时域中逐样本生成原始音频波形的模型。这些模型被称为自回归波形模型。这些模型的主要构想是简洁但计算量大的:根据所有先前生成的样本,特别是基于上游TTS声学模型提供的条件声学特征(如梅尔频谱图),来预测下一个音频样本。当前样本 xt 的概率分布是基于过去的样本 x1,...,xt−1 和条件输入 c 进行建模的。
p(xt∣x1,...,xt−1,c)这种顺序依赖使模型能够捕获音频波形中固有的复杂长时序结构,从而带来非常高的保真度和自然度。然而,一次生成一个音频样本,尤其是在常见的采样率(例如16kHz、24kHz甚至48kHz)下,使得推断本身速度较慢。
由DeepMind推出的WaveNet是深度学习在原始音频生成方面具有里程碑意义的成就。它在TTS方面取得了当前最佳的成果,在自然度上明显胜过现有参数和拼接系统。
WaveNet架构中的改进应对了高分辨率音频信号中长距离依赖建模的难题:
因果卷积: 为保持自回归特性(即仅使用过去样本 x<t 来预测 xt),WaveNet使用因果卷积。在标准的1D卷积中,时间 t 的输出可能依赖于时间 t−k,...,t,...,t+k 的输入。因果卷积确保时间 t 的输出仅依赖于时间 t,t−1,t−2,... 的输入。这通常通过在输入序列的一侧进行适当填充,并确保卷积滤波器不会“预见未来”来实现。
空洞卷积: 使用标准因果卷积对数千个过去样本(例如数百毫秒)的依赖进行建模,将需要非常深的网络或非常大的滤波器,这使得计算上不可行。WaveNet采用空洞卷积。在这些层中,滤波器通过跳过某些步长(即空洞率)的输入值,应用于比其长度更大的输入区域。通过堆叠具有指数级增长空洞率(例如1、2、4、8、...、512)的层,网络能够以相对较少的层实现非常大的感受野(时间步 t 的输出所依赖的过去时间范围),有效地捕获跨不同时间尺度的依赖关系。
堆叠空洞因果卷积使感受野呈指数级增长,使模型能够有效捕获音频信号中的长距离依赖。每层处理输入时都带有增加的间隙(空洞)。
门控激活单元: 受LSTMs和GRUs启发,WaveNet在其残差块中使用了门控激活机制:
z=tanh(Wf,k∗x)⊙σ(Wg,k∗x)这里,∗ 表示卷积,k 是层索引,Wf,k 和 Wg,k 是滤波器权重,σ 是sigmoid函数,⊙ 是逐元素乘法。这种门控机制使网络能够更有效地控制信息流。
残差连接和跳跃连接: 为方便此类深度网络的训练,WaveNet同时采用残差连接(将一个块的输入加到其输出上)和跳跃连接(将不同块的输出求和以形成最终预测),类似于ResNet架构。
条件化: WaveNet需要根据TTS模型提供的声学特征(例如梅尔频谱图)进行条件化。这通过局部条件化来实现,其中条件特征 c(上采样以匹配音频分辨率)影响门控机制:
z=tanh(Wf,k∗x+Vf,k∗c)⊙σ(Wg,k∗x+Vg,k∗c)其中 Vf,k 和 Vg,k 是应用于条件输入 c 的学习得到的线性投影。全局条件化(例如说话人身份向量)也可以类似地添加,以影响整个语音。
输出层: 最终输出层预测下一个样本 xt 的概率分布。由于原始音频样本通常表示为16位整数(65536个可能值),对所有值进行简单的softmax计算成本很高。WaveNet最初使用8位mu律压扩变换(μ-律编码)将可能值的数量减少到256个,然后是一个softmax层。后来的研究考察了使用混合密度网络(MDNs),具体来说是逻辑斯蒂分布的混合,以更有效地直接建模连续波形或16位离散值。
尽管WaveNet生成的音频质量极高,但其逐样本生成过程使得推断速度极慢,通常在标准硬件上远低于实时速度,这限制了它在对延迟敏感的应用中的实际使用。
WaveRNN专门为解决WaveNet缓慢的推断速度而开发,同时保留了自回归建模的优点。WaveRNN没有完全依赖计算密集型空洞卷积,而是采用循环神经网络(RNN),通常是GRU或LSTM,来建模顺序依赖。
WaveRNN的核心更新方程大致如下:
ot,ht=RNN([xt−1,ct],ht−1) P(xt)=OutputLayer(ot)其中 xt−1 是前一个音频样本,ct 是对应的条件特征帧,ht−1 是RNN的前一个隐藏状态,ot 是RNN的输出,ht 是更新后的隐藏状态。OutputLayer(通常由全连接层组成)然后预测当前样本 xt 的概率分布,通常使用类似于WaveNet的mu律量化分箱上的softmax。
WaveRNN的重要方面和优化措施包含:
WaveRNN及其优化变体实现了比原始WaveNet快得多的生成速度,使在CPU和移动设备上进行实时合成成为可能,尽管与最佳WaveNet实现相比,通常在可达到的最高音频保真度上略有折衷。
WaveNet和WaveRNN都代表了神经网络声码领域的开创性工作,表明自回归建模原始音频波形能够产生高质量结果。它们的主要局限性——顺序生成过程,促成了接下来要讨论的并行波形生成模型的发展。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造