本章为构建和理解先进的语音识别与合成系统提供必要准备。我们首先研究除标准MFCCs以外的音频特征提取技术,并考虑学习到的表示和滤波器组。在此之后,我们将回顾核心的统计建模思路,以及专为序列数据设计的深度学习架构,包括RNNs、LSTMs和Transformer,并分析它们在语音处理中的应用。随后,我们将剖析构成现代ASR和TTS流程的各个组成部分,详细阐述它们各自的功能和彼此的配合。最后,我们将完善对评估指标的认识,不限于基本的WER和MOS,为评估本课程后续介绍的复杂模型性能做好准备。