预加重与分帧

原始音频信号数字化后，我们不能直接将整个数据流输入机器学习 (machine learning)模型。语音是一种复杂的信号，其特性持续变化。为了进行分析，我们必须首先应用两个重要的预处理步骤：预加重和分帧。这些技术有助于平衡信号属性，并将其分解为易于处理和分析的片段。

典型的语音信号的频率成分，大部分能量集中在低频。高频分量在区分音素（如“s”与“f”）方面也有作用，但其能量通常低很多。这种不平衡对特征提取中使用的算法可能会造成影响。

预加重是一种滤波技术，旨在通过提升高频分量的能量来解决此问题。它主要有两个目的：

这个过程简单明了。我们应用一个简单的高通滤波器，基于原始信号 $x(t)$ 计算出一个新的信号 $y(t)$ 。预加重公式为：

y(t) = x(t) - \alpha \cdot x(t-1)

在此等式中， $x(t)$ 是当前样本的值， $x(t-1)$ 是前一个样本的值。系数 $\alpha$ （阿尔法）是预加重因子，其值通常在0.95到0.97之间。通过从当前样本中减去前一个样本的一部分，我们有效地放大了样本之间的差异，这些差异在高频处更为明显。

语音信号并非平稳；当我们说出不同的词和声音时，其属性会随时间变化。例如，“she”中的“sh”音与随后的“e”音具有非常不同的频率特性。一次性分析整个句子，会平均掉所有这些重要的细节。

然而，在很短的间隔内，通常在20到30毫秒左右，语音信号可以被认为是“准平稳的”，这意味着其属性相对稳定。这一观察是分帧的根据。

分帧是将预加重信号切分成小的、重叠的片段的过程，这些片段被称为帧。每一帧都足够短，可以被视为一个稳定的声学单元。两个参数 (parameter)定义此过程：

请注意，帧步长（10毫秒）短于帧大小（25毫秒）。这意味着帧会重叠。在此示例中，每帧与前一帧重叠15毫秒（25毫秒 - 10毫秒）。这种重叠很重要，因为它确保了帧之间的平滑过渡，并防止我们丢失可能发生在帧边缘的信息。没有重叠，我们可能会意外地将音素切成两半，从而使其难以识别。

音频信号被分割成重叠的帧。每帧有固定大小（例如25毫秒），新的帧以固定的间隔开始，这个间隔称为帧步长（例如10毫秒）。

经过预加重和分帧后，我们不再处理单个、长时间的音频信号。取而代之的是一系列短的、重叠的帧。这些帧现在已准备好进行处理流程的下一步：应用窗函数，为频率分析做准备。

参考文献

Digital Processing of Speech Signals, Lawrence R. Rabiner and Ronald W. Schafer, 1978 (Prentice-Hall) - 一本基础性教科书，全面介绍了数字语音处理，包括预加重和分帧等信号分析技术。
Discrete-Time Processing of Speech Signals, John R. Deller, John H.L. Hansen, and John G. Proakis, 2000 (IEEE Press / Wiley-Interscience) DOI: 10.1109/9780470544402 - 一部关于数字语音处理的权威著作，侧重于离散时间方法，详细介绍了语音信号表示和短时分析，包括分帧和预加重。