趋近智
数字音频通过采样和量化从连续声波中转换而来,需要存储在特定的文件格式中。如同图片有多种格式(如.jpg、.png、.gif),音频也采用多种格式,每种格式在文件大小、音频质量和处理需求之间都有独特的权衡。
对于语音识别,格式的选择很重要,因为它决定了模型将接收到的数据质量。下面我们来考察你将遇到的三种最常用格式:WAV、MP3和FLAC。
波形音频文件格式,即WAV(.wav),是存储数字音频最简单、最直接的方式。可以将WAV文件视为采样和量化后音频数据的原始容器。它依次存储每个采样的振幅值,文件开头有一个小小的头部,会指定采样率和位深度等元数据。
这种关系很直接:
文件大小 (WAV)=采样率×位深度×声道数×持续时间(秒)WAV文件的一个类比是位图图像文件(.bmp)。它存储了每个像素的颜色值,从而得到一个完美但非常大的图像文件。
MP3(.mp3)格式旨在解决文件过大的问题。它采用有损压缩,这意味着它通过永久丢弃部分音频数据来减小文件大小。
这个过程并非随机。MP3编码器采用心理声学原理——即人耳感知声音的研究。它们会去除普通人难以听到的音频频率和声音,例如极高频率或与响亮声音同时出现的微弱声音。
MP3文件就像JPEG图像(.jpg)。它通过丢弃细微的视觉细节来达到较小的文件大小,从而得到一个在人眼看来效果很好但并非原始完美复制的图像。
自由无损音频编解码器,即FLAC(.flac),在WAV的巨型文件和MP3的降质压缩之间提供了一个中间方案。它采用无损压缩。
这意味着FLAC文件虽然比WAV文件小,但它保留了原始音频信息的每一个比特。它通过找到更高效的数据表示方式来实现这一点,类似于ZIP文件在不改变内容的情况下压缩文档。当您解压缩FLAC文件时,您会得到一个与原始未处理音频逐比特相同的副本。
FLAC文件类似于ZIP文件(.zip)。它使内容在存储和传输时更小,但当您“解压缩”它时,会恢复完全原始的文件。
主要的结论是,所有音频必须转换为原始的、未压缩的波形,然后才能由ASR系统处理。文件格式,无论是WAV、MP3还是FLAC,仅仅告知您音频的存储方式和来源。
下图说明了不同格式在ASR处理前如何被处理。
无论音频的存储格式如何,在用于为语音识别模型创建特征之前,它都会转换为原始波形。
了解这些格式使您能够做出明智的决策,关于数据存储和构建能够处理各种音频输入的流程。在下一节中,我们将学习如何可视化这些原始波形,以查看语音的呈现方式。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造