趋近智
要构建能理解语音的系统,我们必须先了解语音本身的结构及其数字表示方式。本章提供必要的背景知识,从声波的特性开始,到它在计算机上可供处理的数字表示形式。
我们将介绍从语音话语到机器可读格式的完整过程。你将学习人类语音的基本特性,以及将其数字化的技术步骤。一个表示为 x(t) 的连续模拟音频信号,必须通过采样和量化等过程,转换为离散的数字序列 x[n]。
学完本章后,你将能够:
Librosa 库加载和处理音频数据。本章以一个动手练习作为结尾,你将应用这些技能来加载并可视化音频波形和语谱图,为后续的特征提取方法做准备。
1.1 自动语音识别系统介绍
1.2 人类语音的特性:音素和同位音
1.3 数字音频信号:采样、量化与编码
1.4 在 Python 中使用 Librosa 处理音频数据
1.5 时域与频域分析
1.6 语音可视化中的语谱图入门
1.7 实践操作:加载与可视化音频波形
© 2026 ApX Machine Learning用心打造