就像图像可以分解为像素值一样,声音也需要转换为 AI 系统能够理解的数字格式。音频在其自然状态下,是连续的压力变化波。为了让计算机“听到”并处理这些声音,无论是语音、音乐还是环境噪声,我们首先必须将这些模拟波转换为数字信号。在这里,我们将考察声音如何被捕捉并将其转换为 AI 模型可用的结构。从模拟声波到数字数据声音始于通过介质(如空气)传播的振动,形成我们所说的声波。这些波是模拟信号,这意味着它们在时间和振幅(其强度或响度)上都是连续的。想象一下石头落入池塘后产生的平滑、连续的涟漪;声波的行为方式类似。声波的特点包括:振幅:指波的强度或“高度”。它对应于我们感知到的声音的响度。振幅越大的波意味着声音越响。频率:这是波振动的速率,或每秒发生多少次振动。频率以赫兹 (Hz) 为单位测量,并对应于声音的音高。高频波听起来音调高,而低频波听起来音调低。为了将声音与计算机一起使用,这种连续的模拟信号需要转换为数字格式,即一系列离散的数字。这个转换过程通常由模拟-数字转换器 (ADC) 处理,并包含两个主要步骤:采样和量化。digraph G { rankdir=TB; graph [fontname="Arial", fontsize=11]; node [shape=box, style=filled, color="#ced4da", fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=10]; SoundWave [label="模拟声波\n(连续振动)", shape=ellipse, style=filled, color="#a5d8ff"]; Microphone [label="麦克风\n(将声音转换为模拟电信号)", style=filled, color="#96f2d7"]; AnalogSignal [label="模拟电信号\n(仍然连续)", shape=ellipse, style=filled, color="#a5d8ff"]; ADC [label="模数转换器 (ADC)\n(执行采样与量化)", shape=component, style=filled, color="#ffd8a8"]; DigitalSignal [label="数字音频信号\n(离散数字序列)", shape=ellipse, style=filled, color="#ffc9c9"]; SoundWave -> Microphone; Microphone -> AnalogSignal; AnalogSignal -> ADC [label=" 输入"]; ADC -> DigitalSignal [label=" 输出"]; }声音从连续模拟波到可供计算机处理的离散数字信号的路径。采样:在时间上截取“快照”想象一下尝试描述一条流淌的河流。你无法捕捉到每一个水分子,但你可以定期拍摄照片。采样就像在固定、非常短的时间间隔内,截取声波振幅的这些“快照”。采样率(或采样频率)指定每秒采集多少个样本(快照)。它以赫兹 (Hz) 或千赫兹 (kHz,每秒数千个样本) 为单位测量。例如,CD 质量音频使用 44,100 Hz(或 44.1 kHz)的采样率。这意味着它每秒捕获 44,100 个振幅值。对于语音识别,常用采样率为 16 kHz 或 8 kHz,因为这些足以捕捉对人类语音重要的频率。更高的采样率通常意味着对原始声音更准确的数字表示,特别是对于高频分量。奈奎斯特-香农采样定理指出,为了准确重建信号,采样率必须至少是信号中最高频率的两倍。量化:测量快照采样后,我们得到一系列在离散时间点采集的振幅测量值。然而,振幅值本身仍可以是连续的(特定范围内的任何值)。量化是将每个连续振幅值转换为离散值的过程,该离散值从有限的可能电平集合中选择。可用电平数由位深度决定。8 位音频信号使用 $2^8 = 256$ 个不同的电平来表示振幅。16 位音频信号使用 $2^{16} = 65,536$ 个不同的电平。这在 CD 中很常见。专业音频可能会使用 24 位甚至 32 位。更高的位深度允许振幅上更精细的区别,从而产生更准确的表示、更低的噪声本底(更少的量化误差)和更大的动态范围(最安静和最响亮可能声音之间的差异)。一旦采样和量化完成,模拟声波就被转换为数字序列。这个数字序列是 AI 模型可以处理的数字音频数据。AI 常用数字音频表示方法声音数字化后得到的数字序列可以以各种方式表示以供 AI 系统使用。两种基本表示方法是原始波形和频谱图。波形:时域视图数字音频最直接的表示是波形。这仅仅是声音振幅值随时间绘制的序列。序列中的每个数字都代表在由采样率决定的特定离散时间点上的声压级。如果你有立体声,你将有两个这样的序列:一个用于左声道,一个用于右声道。{"data": [{"x": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30], "y": [0, 0.31, 0.59, 0.81, 0.95, 1.0, 0.95, 0.81, 0.59, 0.31, 0, -0.31, -0.59, -0.81, -0.95, -1.0, -0.95, -0.81, -0.59, -0.31, 0, 0.2, 0.4, 0.55, 0.4, 0.2, 0, -0.2, -0.4, -0.55, -0.4], "type": "scatter", "mode": "lines", "name": "振幅", "line": {"color": "#228be6", "width": 2}}], "layout": {"title": {"text": "数字音频波形的一小段", "font": {"family": "Arial", "size": 16, "color": "#495057"}}, "xaxis": {"title": "时间(以采样点计)", "color": "#495057", "gridcolor": "#dee2e6"}, "yaxis": {"title": "振幅", "color": "#495057", "gridcolor": "#dee2e6"}, "plot_bgcolor": "#f8f9fa", "paper_bgcolor": "white", "font": {"family": "Arial", "color": "#495057"}}}该图显示了波形的一个片段,其中每个点代表音频信号在离散时间点的振幅。AI 模型可以直接处理原始波形数据。然而,对于许多任务,模型很难仅从这种时域表示中直接辨别复杂的听觉特征,例如音高、音色(声音独特的“颜色”)或语音内容,特别是对于较长的音频片段。频域表示:拆解声音的组成成分我们听到的大多数声音,如语音或音乐,都是许多不同简单频率的复杂混合,每个频率都有自己的强度。例如,小提琴演奏的单个音符包含一个基频(决定音符的音高)和许多泛音(谐波),这些泛音赋予小提琴其独特的音色。在频域中表示音频使我们能够查看声音中存在哪些频率以及它们的强度。这通常比原始波形对 AI 而言更有信息量。用于将信号从时域(如波形)转换为频域的主要数学工具称为傅里叶变换。虽然详细数学内容超出本入门范围,但其目的是将复杂声音分解为其更简单的频率分量。频谱图:随时间可视化频率频谱图是一种流行且有效的方法,用于可视化音频信号随时间变化的频率内容。它本质上是“声音的图像”。频谱图通常按以下方式生成:音频信号(波形)被分成许多短的、通常重叠的时间段或“窗口”。对于每个短段,应用傅里叶变换以确定在该特定时间窗口中存在的各种频率的强度。然后绘制这些结果:水平轴代表时间。垂直轴代表频率(通常低频在底部,高频在顶部)。每个时间点上每个频率的强度(能量或振幅)由颜色或亮度表示。例如,更亮的颜色可能表示该频率在此时的强度更高。{"data": [{"z": [[0.1, 0.2, 0.8, 0.5, 0.2, 0.1], [0.3, 0.5, 1.0, 0.6, 0.3, 0.2], [0.6, 0.8, 0.4, 0.7, 0.5, 0.4], [0.4, 0.6, 0.3, 0.5, 0.2, 0.3], [0.2, 0.3, 0.1, 0.2, 0.1, 0.1], [0.1, 0.2, 0.05, 0.1, 0.05, 0.05]], "x": ["0ms", "50ms", "100ms", "150ms", "200ms", "250ms"], "y": ["0Hz", "100Hz", "200Hz", "300Hz", "400Hz", "500Hz"], "type": "heatmap", "colorscale": "Viridis", "reversescale": false, "colorbar": {"title": "强度", "titlefont": {"color": "#495057"}, "tickfont": {"color": "#495057"}}}], "layout": {"title": {"text": "简化频谱图示例", "font": {"family": "Arial", "size": 16, "color": "#495057"}}, "xaxis": {"title": "时间", "color": "#495057"}, "yaxis": {"title": "频率", "autorange": "reversed", "color": "#495057"}, "plot_bgcolor": "white", "paper_bgcolor": "white", "font": {"family": "Arial", "color": "#495057"}}}频谱图显示了音频信号随时间变化的频率频谱。不同的颜色表示每个频段的不同强度。频谱图对于 AI 任务非常有效,原因如下:它们使听觉模式在视觉上更明显。例如,语音中的元音具有独特的频率模式(共振峰),这些模式在频谱图中清晰显示。由于频谱图可以被视为图像,因此为图像处理(如卷积神经网络,即 CNN)开发的 AI 技术可以很容易地应用于音频分析。它们广泛应用于语音识别(识别口语词)、音乐信息检索(例如,流派分类、乐器识别)和声音事件检测(例如,识别狗叫声或玻璃破碎声)等应用中。其他基于频率的表示,如梅尔频率倒谱系数 (MFCC),也很常见,特别是在语音识别中。MFCC 源自频谱图,旨在模仿人类听觉感知方面,但我们暂时专注于波形和频谱图作为基本表示。为什么这种数字转换很重要理解连续声波如何转换为离散数字序列(如波形)或类视觉数组(如频谱图)是基础。这些数字表示是 AI 算法学习的原始材料。当音频采用这种数字格式时,它可以输入到机器学习模型中。在多模态 AI 的背景下,这些数字音频特征可以与其他数据类型(如转录文本或视频视觉信息)的数字表示结合并关联。这使得 AI 系统能够通过结合其他模态从声音中获取见解,从而建立更丰富、更全面的理解。在考察了文本、图像以及现在音频如何以数字方式表示之后,我们正在建立理解 AI 系统如何处理和整合这些多样的数据流的基础。