趋近智
音频数字化后,它以一长串代表振幅值的数字序列形式存在。尽管这种格式对计算机来说很理想,但对人来说并不直观。为了了解声音的结构,我们需要将其呈现出来。呈现方式不只为了我们自身的便利;它们构成了机器学习模型理解语音所用特征的基础。两种最常见的音频呈现方式是波形图和频谱图。
呈现数字音频最直接的方式是使用波形图。波形图是一种简单的二维图,其中水平轴表示时间,垂直轴表示振幅。振幅对应声音在每个时刻的强度或“响度”。正值和负值表示声波的振动,而接近零的值表示静音。
“Hello world.”这句话的波形图。
“Hello world.”短语的波形图。两个明显的能量爆发对应着两个单词,中间由短暂的停顿隔开。
从波形图中,可以轻松分辨出录音中包含声音的部分与包含静音的部分。波峰和波谷展示了声音的强度。然而,波形图有一个重要的局限性:它没有告诉我们任何关于声音频率内容的信息。我们能看到有声音发出,但仅仅通过查看振幅,我们无法区分高音的“eee”声和低音的“ooo”声。对于ASR系统来说,这种频率信息对于区分音素是必要的。
为了查看音频信号的频率内容,我们使用一个频谱图。频谱图是一种更为丰富的呈现方式,它显示了声音中存在的频率如何随时间变化。可以把它想象成一系列堆叠在一起的频率快照。
为了生成频谱图,音频信号被分解成小的、相互重叠的时间段,称为帧。对于每个帧,使用一种名为**快速傅里叶变换(FFT)**的数学运算来确定不同频带中存在的能量大小。结果是一个二维图,其中时间在水平轴上,频率在垂直轴上,颜色表示在每个时间点上各频率的能量或振幅。
相同“Hello world”短语的频谱图。颜色强度表示能量,黄色表示高能量,蓝色表示低能量。
这种呈现方式提供了更多信息。现在你可以看到明显的模式:
频谱图不只是一种对人类分析有用的工具。它们是ASR系统从中学习特征的基础。我们在频谱图中可以看到的视觉模式,与机器学习模型需要识别的声学模式相对应。关于预加重、分帧、加窗以及尤其是MFCC创建的后续部分,都是从这种类似频谱图的表示开始,为声学模型生成一组紧凑有效的特征的过程中的步骤。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造