音频数字化后,它以一长串代表振幅值的数字序列形式存在。尽管这种格式对计算机来说很理想,但对人来说并不直观。为了了解声音的结构,我们需要将其呈现出来。呈现方式不只为了我们自身的便利;它们构成了机器学习模型理解语音所用特征的基础。两种最常见的音频呈现方式是波形图和频谱图。波形图:时间中的声音呈现数字音频最直接的方式是使用波形图。波形图是一种简单的二维图,其中水平轴表示时间,垂直轴表示振幅。振幅对应声音在每个时刻的强度或“响度”。正值和负值表示声波的振动,而接近零的值表示静音。“Hello world.”这句话的波形图。{"layout": {"xaxis": {"title": "时间 (s)"}, "yaxis": {"title": "振幅", "range": [-1, 1]}, "margin": {"l": 50, "r": 20, "t": 20, "b": 40}, "plot_bgcolor": "#f8f9fa", "paper_bgcolor": "#ffffff"}, "data": [{"x": [0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0], "y": [0.0, 0.0, 0.0, 0.2, 0.6, -0.4, 0.5, 0.1, -0.1, 0.0, 0.0, 0.0, 0.4, 0.9, -0.7, 0.6, 0.2, -0.1, 0.0, 0.0, 0.0], "type": "scatter", "mode": "lines", "line": {"color": "#339af0"}}]}“Hello world.”短语的波形图。两个明显的能量爆发对应着两个单词,中间由短暂的停顿隔开。从波形图中,可以轻松分辨出录音中包含声音的部分与包含静音的部分。波峰和波谷展示了声音的强度。然而,波形图有一个重要的局限性:它没有告诉我们任何关于声音频率内容的信息。我们能看到有声音发出,但仅仅通过查看振幅,我们无法区分高音的“eee”声和低音的“ooo”声。对于ASR系统来说,这种频率信息对于区分音素是必要的。频谱图:为画面添加频率为了查看音频信号的频率内容,我们使用一个频谱图。频谱图是一种更为丰富的呈现方式,它显示了声音中存在的频率如何随时间变化。可以把它想象成一系列堆叠在一起的频率快照。为了生成频谱图,音频信号被分解成小的、相互重叠的时间段,称为帧。对于每个帧,使用一种名为**快速傅里叶变换(FFT)**的数学运算来确定不同频带中存在的能量大小。结果是一个二维图,其中时间在水平轴上,频率在垂直轴上,颜色表示在每个时间点上各频率的能量或振幅。{"layout": {"xaxis": {"title": "时间 (s)"}, "yaxis": {"title": "频率 (Hz)"}, "margin": {"l": 50, "r": 20, "t": 20, "b": 40}, "plot_bgcolor": "#ffffff", "paper_bgcolor": "#ffffff"}, "data": [{"x": [0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 1.3, 1.4, 1.5, 1.6, 1.7], "y": [500, 1000, 1500, 2000, 2500, 3000, 3500, 4000], "z": [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 5, 4, 1, 0, 0, 1, 6, 5, 1, 0], [0, 4, 3, 1, 0, 0, 0, 4, 3, 1, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 1, 1, 2, 4, 2, 0, 0, 0, 0, 0], [0, 0, 1, 3, 2, 1, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], "type": "heatmap", "colorscale": [[0, "#4263eb"], [0.5, "#74c0fc"], [1, "#ffec99"]], "showscale": false}]}相同“Hello world”短语的频谱图。颜色强度表示能量,黄色表示高能量,蓝色表示低能量。这种呈现方式提供了更多信息。现在你可以看到明显的模式:元音,例如“hello”中的“e”和“world”中的“o”,通常在特定的中低频段表现为强的水平能量带。这些频带被称为共振峰,是元音的区分特征。擦音,指通过狭窄通道迫使气流产生辅音(如“s”或“sh”),通常在高频区域显示为嘈杂、分散的能量。爆破音,指“p”或“t”等辅音,可能会表现为短暂的静音,随后在很宽的频率范围内突然出现能量爆发。从呈现到特征频谱图不只是一种对人类分析有用的工具。它们是ASR系统从中学习特征的基础。我们在频谱图中可以看到的视觉模式,与机器学习模型需要识别的声学模式相对应。关于预加重、分帧、加窗以及尤其是MFCC创建的后续部分,都是从这种类似频谱图的表示开始,为声学模型生成一组紧凑有效的特征的过程中的步骤。