趋近智
在计算机理解语音之前,原始音频信号必须转换为结构化的数字形式。机器学习模型不直接处理声波;它们需要能提取与语音相关的声学属性的特征。本章介绍执行这种转换的常规方法。
我们将从连续声音如何通过采样和量化进行数字化的基本原理讲起。接着,你将学习如何将这些信号可视化为波形图和频谱图,以便检查其内容。本章的主要部分侧重于特征提取,逐步讲解生成梅尔频率倒谱系数(MFCCs)的步骤,MFCCs是语音识别系统的一种常见输入。
具体来说,你将学会:
本章结束时,你将能够将标准音频文件转换为适合与声学模型一起使用的特征矩阵。
2.1 从声波到数字数据:采样与量化
2.2 了解音频格式(WAV、MP3、FLAC)
2.3 语音可视化:波形图与频谱图
2.4 预加重与分帧
2.5 窗口函数详解
2.6 特征提取简介
2.7 生成梅尔频率倒谱系数 (MFCC)
2.8 动手实践:音频文件可视化与处理
© 2026 ApX Machine Learning用心打造