趋近智
将原始音频转换为特征向量序列后,下一步是将这些特征映射到语言的基本语音单位。这是声学模型的主要作用。它回答了这样一个问题:给定一小段音频,其中特定音素(如 /k/、/æ/ 或 /t/)被说出的概率是多少?
声学模型提供了音频信号与其对应音素单位之间的统计关联。它计算似然度 P(\text{audio_features} | \text{phoneme}),这个概率是最终转录过程的重要输入。
在本章中,您将学习到:
最后,您将清楚了解这个组件如何将处理过的声音与语音的基本构成单位联系起来。
3.1 什么是声学模型?
3.2 将声音映射到音素
3.3 早期方法:高斯混合模型 (GMMs)
3.4 隐马尔可夫模型 (HMM) 在序列数据中的应用
3.5 GMM与HMM的结合
3.6 基于神经网络的声学模型介绍
3.7 语音模型在ASR系统中的作用
© 2026 ApX Machine Learning用心打造