趋近智
传统的梅尔频率倒谱系数(MFCCs)几十年来一直是语音处理的主力。然而,现代深度学习 (deep learning)模型常能受益于更丰富、处理程度较低的输入表示。对于更精密的架构,理解高级特征提取技术对于提升性能变得不可或缺。这些方法旨在从原始信号中保留更多信息,或者让模型本身直接从数据中学习最有效的表示。
在应用离散余弦变换(DCT)以生成MFCCs之前,该过程需要计算应用于功率谱的一组重叠三角形滤波器内的能量。这些滤波器根据梅尔刻度分布,该刻度近似于人类听觉感知。
中间输出,通常是这些滤波器组能量的对数(常被称为对数梅尔频谱图、梅尔频率频谱系数或FBank特征),已成为许多当前用于ASR和TTS的深度学习 (deep learning)系统的标准输入。
计算步骤如下:
这里, 是频率 处的频谱幅度, 是频率 处第 个梅尔滤波器的响应。
为什么使用对数梅尔能量而不是MFCCs?
使用对数梅尔滤波器组能量(通常是40或80个滤波器)在降维和信息保持之间提供了良好的平衡,作为许多高级模型的强大基线。
重叠的三角形滤波器按梅尔刻度分布。较高频率的滤波器通常具有更宽的带宽。
一项重要进展是可学习特征的理念,其中特征提取过程本身被整合到神经网络 (neural network)中,并在训练期间进行优化。网络不再依赖于梅尔刻度等固定的预定义滤波器组,而是为特定任务和数据集学习最佳滤波器。
一种流行方法是使用一维卷积层直接应用于原始音频波形或经过最少处理的版本。这些初始层充当可学习的滤波器组。
SincNet: 该架构使用sinc函数对第一层卷积层的滤波器进行参数 (parameter)化。sinc函数 定义了频域中的理想矩形滤波器。SincNet学习每个滤波器的低截止频率和高截止频率,有效地学习了一组带通滤波器。这种参数化是高效的(每个滤波器只有两个参数),并鼓励学习有意义、可解释的滤波器。
这里 代表时域中的滤波器抽头,通过其截止频率 和 学习。
LEAF(可学习前端): 作为SincNet的演进,LEAF使用通过高斯低通滤波器实现的可学习类Gabor滤波器。它可能提供比SincNet强制的严格带通形状更大的灵活性,并已表现出强大的性能。
这些可学习前端替代了固定的STFT和梅尔滤波器组阶段。该初始层(在池化和激活之后,例如对数压缩)的输出随后被馈入主声学模型(如LSTM或Transformer)的后续层。
优点:
考量:
虽然梅尔刻度特征占主导地位,但也存在其他基于人类听觉感知的表示方式:
对于许多语音任务,特别是文本转语音合成以及ASR中分析声调语言或韵律,基频(F0)或音高是一个重要特征。音高信息在MFCCs或对数梅尔能量等标准频谱表示中大部分丢失。
音高通常使用应用于波形或频谱的专门算法(例如YIN、pYIN、CREPE、RAPT)进行估计。所得的F0轮廓(每帧的音高值)通常会:
加入音高可以大幅提升合成语音的自然度,并为ASR中区分声调语言中的词语或理解句子的语态(疑问句 vs. 陈述句)提供有价值的线索。
可学习特征的最终体现是将原始音频波形样本直接馈入神经网络 (neural network),从而绕过所有传统信号处理步骤。像wav2vec、wav2vec 2.0、HuBERT以及一些端到端TTS系统(常包含类似WaveNet的组件)直接处理音频样本序列。
动机:
挑战:
虽然可学习前端和原始波形模型在许多研究基准测试中代表了当前最佳水平,但对数梅尔滤波器组能量在实际的ASR和TTS系统中仍是具有高竞争力和广泛使用的特征表示。它们在信息含量、维度和计算可行性之间提供了良好的平衡。
选择通常取决于:
理解这些高级特征选项,能让您在设计或调整语音处理系统时做出明智的决定,超越默认选择,通过为模型提供更丰富或更定制化的信息来提升性能。这些特征构成了我们接下来将讨论的统计和深度学习 (deep learning)模型赖以运行的输入部分。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•