趋近智
神经网络 (neural network)声码器是强大的生成模型,能够生成高保真音频波形。然而,若不加干预,它们只会生成统计上合理但无意义的音频,例如呓语或环境噪声。重要一步是 引导 或 条件化 声码器,使其合成由上游文本转语音(TTS)系统指定的特定语音内容。提供这种引导的方法,通常以梅尔频谱图等声学特征的形式,将进行探讨。
可以将未经条件化的声码器想象成一位能完美演奏任何音符但没有乐谱的天才音乐家。条件输入就像乐谱,提供生成所需输出的精确指令。在TTS情境下,上游声学模型(如Tacotron 2或FastSpeech 2)生成一个中间表示,最常见的是梅尔频谱图。这个梅尔频谱图编码音素序列、持续时间、音高轮廓、能量和频谱包络,这些都是定义目标发声所必需的。声码器的任务是接收此表示并将其渲染为可听波形。
有效的条件化确保声码器合成的音频:
因此,最终合成语音的质量高度依赖于声码器的生成能力,也高度依赖其接收到的条件特征的质量和丰富度。
现代神经网络 (neural network)声码器的主导条件特征是梅尔频谱图。它的流行源于以下几个因素:
用于条件化的典型梅尔频谱图可能具有80个频段(梅尔频带),帧跳跃为10-12.5毫秒。这意味着每秒语音,TTS模型向声码器提供大约80-100帧80维向量 (vector)。
注入条件信息的方法因声码器架构而异。
自回归模型逐个样本生成音频波形,其中每个样本 依赖于之前的样本 和条件输入 。主要难点在于条件特征(例如,每12.5毫秒一帧)和音频样本(例如,每1/22050秒或约0.045毫秒一采样)之间时间分辨率的显著差异。
为了弥补这一差距,条件特征(梅尔频谱图帧)必须上采样以匹配音频采样率。这通常通过学习得到的上采样层实现,通常包含转置卷积(有时称为反卷积)或最近邻/线性插值,然后接卷积层。这些层学习将低时间分辨率特征扩展到对应的高分辨率音频样本。
设 为梅尔频谱图帧序列, 为上采样特征,其时间分辨率与音频波形 相同。样本 的生成过程可表示为:
这里, 表示与时间步 相关的上采样条件信息。实际上,函数 由神经网络 (neural network)实现(例如,WaveNet中的扩张因果卷积),它将过去的音频样本和对应的上采样局部条件 作为输入,以预测当前样本 的分布。
对梅尔频谱图 (
c) 进行上采样以匹配音频采样率 (h),用于在每个时间步t条件化自回归声码器。
流模型声码器通常使用归一化 (normalization)流将简单的噪声分布(例如,高斯分布)转换为目标音频分布。条件化通常是全局应用的。整个梅尔频谱图首先由条件化网络处理(有时包含LSTM或CNN)以提取相关特征。
这些提取的特征随后用于参数 (parameter)化流内的变换,尤其是仿射耦合层。例如,仿射耦合层中的尺度和偏置 (bias)项可能会作为编码梅尔频谱图特征的函数来计算。这使得从噪声到音频的转换能够由梅尔频谱图中编码的特定内容引导。尽管主要条件化可能是全局的,但类似于自回归模型中的上采样技术仍可存在于网络架构中,以在内部处理时间分辨率不匹配的问题。
在基于GAN的声码器中,生成器网络 () 直接将条件梅尔频谱图 (可能还有一些随机噪声 )映射到音频波形 : 。
生成器架构专门设计用于处理上采样任务。它通常由一系列上采样块组成,通常使用转置卷积,其步长与每个阶段所需的上采样因子匹配。例如,如果梅尔频谱图的帧移大小为256个采样点(在22050 Hz下为11.6毫秒),生成器需要达到总时间上采样因子256。这可以通过步长为8、8、2、2(8 * 8 * 2 * 2 = 256)的连续层来完成。这些块中的卷积层处理每个分辨率的特征。
基于GAN的声码器生成器的简化结构,展示了输入梅尔频谱图的逐步上采样以生成全分辨率波形。判别器评估生成的波形,可能也以梅尔频谱图为条件。
扩散模型通过迭代逆转加噪过程来生成数据。对于声码器,这意味着从高斯噪声开始,并在几个步骤中逐步去噪以生成干净的音频波形。条件化通常在每个去噪步骤中引入。
梅尔频谱图 通常被编码成一个嵌入 (embedding)。这个嵌入随后在每个步骤 被并入去噪网络(通常是U-Net类架构)。这可以通过将嵌入与中间噪声音频表示 连接起来完成,或者通过使用自适应层归一化(AdaLN)技术,其中归一化层的尺度和偏置参数是根据条件嵌入和当前噪声水平 预测的。这确保了去噪过程朝向对应于 的目标波形进行。
总之,条件化是一种机制,通过它,神经网络 (neural network)声码器被引导合成由声学特征定义的特定语音内容。尽管梅尔频谱图是标准输入,但整合此信息的技术在不同架构中有所不同,主要涉及学习得到的上采样和特征注入策略,这些策略针对自回归 (autoregressive)、流式、GAN或扩散框架进行调整。这个条件化步骤的有效性是合成语音整体质量的一个重要因素。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造