趋近智
本章为构建和理解先进的语音识别与合成系统提供必要准备。我们首先研究除标准MFCCs以外的音频特征提取技术,并考虑学习到的表示和滤波器组。在此之后,我们将回顾核心的统计建模思路,以及专为序列数据设计的深度学习 (deep learning)架构,包括RNNs、LSTMs和Transformer,并分析它们在语音处理中的应用。随后,我们将剖析构成现代ASR和TTS流程的各个组成部分,详细阐述它们各自的功能和彼此的配合。最后,我们将完善对评估指标的认识,不限于基本的WER和MOS,为评估本课程后续介绍的复杂模型性能做好准备。
1.1 高级音频特征提取
1.2 语音统计建模回顾
1.3 序列的深度学习结构
1.4 ASR 系统组成部分
1.5 文本转语音(TTS)系统的组成部分
1.6 评估指标的再审视
© 2026 ApX Machine Learning用心打造