本章将重点转向语音生成,详细介绍构建现代文本到语音(TTS)系统所用的方法。目的是从合成的初步认识开始,逐步达到能生成高保真、听起来自然且可控制的人工语音的技术水平。您将学习当前几种先进声学模型的架构和训练过程:自回归模型: 分析 Tacotron 和基于 Transformer 的 TTS 等序列到序列的方法。非自回归模型: 学习用于加速推理的并行生成技术,如 FastSpeech 及其变体。基于流和基于 GAN 的模型: 考察应用于声学特征生成的不同生成建模方式。除了核心模型架构,我们还将介绍以下方法:对语音韵律(节奏、语调)进行建模和控制。生成具有不同风格或情感的富有表现力的语音。实现语音克隆和转换系统。本章包含一个动手实践部分,侧重于使用现代工具包训练高级 TTS 模型。