趋近智
波形图显示了信号随时间变化的幅度,但它隐藏了区分不同声音所必需的频率信息。另一方面,标准傅里叶变换提供的是整个音频片段中所有频率的概览,但它抹去了这些频率何时出现的信息。对于像语音这样的信号来说,这是一个很大的问题,因为其频率内容是时刻变化的。
为了有效地分析语音,我们需要一种能同时保留时间和频率信息的方法。这正是语谱图的作用,它是一种视觉表示,呈现了信号的频率内容如何随时间变化。它是语音处理中最基本的工具之一。
语谱图是通过一种称为短时傅里叶变换 (STFT) 的过程生成的。STFT 不是一次性分析整个音频信号,而是将信号分解成短的、重叠的帧或窗口,通常长度为 20-30 毫秒。对于这些短帧中的每一个,我们可以假设信号是平稳的,这意味着其频率属性在该小时间段内没有太大变化。
该过程如下:
这有效地创建了一个三维表示,其中x轴是时间,y轴是频率,每个点的颜色或强度代表特定时刻给定频率的幅度或功率。
音频信号被分段成重叠的帧。对每个帧计算 FFT,然后将结果堆叠以形成最终的语谱图。
语谱图将音频信号变成图像,使我们能够看到语音独特的模式。让我们看一下单词“speech”的语谱图并识别其组成部分。
单词“speech”的语谱图显示了频率随时间的变化。
元音: 语谱图最显著的特征是被称为共振峰的水平条。它们是声道的共振频率,在语谱图中显示为深色水平条带。共振峰的模式和间距定义了不同的元音声音。例如,在单词“speech”中,初始元音 /i/ 以一组特定的共振峰频率为特征。
擦音: 单词“speech”中的 /s/ 和 /ch/ 音是擦音的例子。这些辅音是通过将空气强行通过狭窄通道产生的,形成湍流、高频噪声。在语谱图上,它们显示为分散在高频范围内的弥散、混乱的能量团。
塞音: 塞音是像 /p/、/t/ 和 /k/ 这样的辅音,它们是通过阻塞气流然后突然放开产生的。这会在语谱图上产生短暂而尖锐的能量爆发。
理解语谱图为我们提供了可视化语音语音学特征的强大工具。元音的水平共振峰、擦音的嘈杂云团以及塞音的突然爆发为每种声音提供了独特的视觉特征,使我们能够分析和处理语音信号。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造