趋近智
就像图像可以分解为像素值一样,声音也需要转换为 AI 系统能够理解的数字格式。音频在其自然状态下,是连续的压力变化波。为了让计算机“听到”并处理这些声音,无论是语音、音乐还是环境噪声,我们首先必须将这些模拟波转换为数字信号。在这里,我们将考察声音如何被捕捉并将其转换为 AI 模型可用的结构。
声音始于通过介质(如空气)传播的振动,形成我们所说的声波。这些波是模拟信号,这意味着它们在时间和振幅(其强度或响度)上都是连续的。想象一下石头落入池塘后产生的平滑、连续的涟漪;声波的行为方式类似。
声波的特点包括:
为了将声音与计算机一起使用,这种连续的模拟信号需要转换为数字格式,即一系列离散的数字。这个转换过程通常由模拟-数字转换器 (ADC) 处理,并包含两个主要步骤:采样和量化 (quantization)。
声音从连续模拟波到可供计算机处理的离散数字信号的路径。
想象一下尝试描述一条流淌的河流。你无法捕捉到每一个水分子,但你可以定期拍摄照片。采样就像在固定、非常短的时间间隔内,截取声波振幅的这些“快照”。
采样率(或采样频率)指定每秒采集多少个样本(快照)。它以赫兹 (Hz) 或千赫兹 (kHz,每秒数千个样本) 为单位测量。
更高的采样率通常意味着对原始声音更准确的数字表示,特别是对于高频分量。奈奎斯特-香农采样定理指出,为了准确重建信号,采样率必须至少是信号中最高频率的两倍。
采样后,我们得到一系列在离散时间点采集的振幅测量值。然而,振幅值本身仍可以是连续的(特定范围内的任何值)。量化是将每个连续振幅值转换为离散值的过程,该离散值从有限的可能电平集合中选择。
可用电平数由位深度决定。
更高的位深度允许振幅上更精细的区别,从而产生更准确的表示、更低的噪声本底(更少的量化误差)和更大的动态范围(最安静和最响亮可能声音之间的差异)。
一旦采样和量化完成,模拟声波就被转换为数字序列。这个数字序列是 AI 模型可以处理的数字音频数据。
声音数字化后得到的数字序列可以以各种方式表示以供 AI 系统使用。两种基本表示方法是原始波形和频谱图。
数字音频最直接的表示是波形。这仅仅是声音振幅值随时间绘制的序列。序列中的每个数字都代表在由采样率决定的特定离散时间点上的声压级。
如果你有立体声,你将有两个这样的序列:一个用于左声道,一个用于右声道。
该图显示了波形的一个片段,其中每个点代表音频信号在离散时间点的振幅。
AI 模型可以直接处理原始波形数据。然而,对于许多任务,模型很难仅从这种时域表示中直接辨别复杂的听觉特征,例如音高、音色(声音独特的“颜色”)或语音内容,特别是对于较长的音频片段。
我们听到的大多数声音,如语音或音乐,都是许多不同简单频率的复杂混合,每个频率都有自己的强度。例如,小提琴演奏的单个音符包含一个基频(决定音符的音高)和许多泛音(谐波),这些泛音赋予小提琴其独特的音色。
在频域中表示音频使我们能够查看声音中存在哪些频率以及它们的强度。这通常比原始波形对 AI 而言更有信息量。用于将信号从时域(如波形)转换为频域的主要数学工具称为傅里叶变换。虽然详细数学内容超出本入门范围,但其目的是将复杂声音分解为其更简单的频率分量。
频谱图是一种流行且有效的方法,用于可视化音频信号随时间变化的频率内容。它本质上是“声音的图像”。
频谱图通常按以下方式生成:
频谱图显示了音频信号随时间变化的频率频谱。不同的颜色表示每个频段的不同强度。
频谱图对于 AI 任务非常有效,原因如下:
其他基于频率的表示,如梅尔频率倒谱系数 (MFCC),也很常见,特别是在语音识别中。MFCC 源自频谱图,旨在模仿人类听觉感知方面,但我们暂时专注于波形和频谱图作为基本表示。
理解连续声波如何转换为离散数字序列(如波形)或类视觉数组(如频谱图)是基础。这些数字表示是 AI 算法学习的原始材料。当音频采用这种数字格式时,它可以输入到机器学习 (machine learning)模型中。
在多模态 (multimodal) AI 的背景下,这些数字音频特征可以与其他数据类型(如转录文本或视频视觉信息)的数字表示结合并关联。这使得 AI 系统能够通过结合其他模态从声音中获取见解,从而建立更丰富、更全面的理解。
在考察了文本、图像以及现在音频如何以数字方式表示之后,我们正在建立理解 AI 系统如何处理和整合这些多样的数据流的基础。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造