趋近智
本章将重点转向语音生成,详细介绍构建现代文本到语音(TTS)系统所用的方法。目的是从合成的初步认识开始,逐步达到能生成高保真、听起来自然且可控制的人工语音的技术水平。
您将学习当前几种先进声学模型的架构和训练过程:
除了核心模型架构,我们还将介绍以下方法:
本章包含一个动手实践部分,侧重于使用现代工具包训练高级 TTS 模型。
4.1 自回归声学模型 (Tacotron, Transformer TTS)
4.2 非自回归声学模型 (FastSpeech, ParaNet)
4.3 基于流的文本到语音合成模型
4.4 生成对抗网络(GANs)在文本到语音中的应用
4.5 韵律建模与控制
4.6 富有表现力的语音合成
4.7 声音克隆与转换
4.8 动手实践:训练高级TTS模型
© 2026 ApX Machine Learning用心打造