先决条件: 扎实的机器学习/深度学习及Python基础。
您将学到什么
高级ASR架构
实现并分析复杂的端到端ASR模型,例如基于注意力的编解码器和Transducers。
说话人与环境适应
应用技术使ASR模型适应不同的说话人、口音和声学环境。
高级TTS建模
构建精密的TTS模型,侧重于自然度、韵律控制和声音克隆。
神经声码器
实现并评估现代神经声码器,用于高保真语音合成。
模型优化与部署
应用技术优化ASR/TTS模型,以提高速度、减小体积并实现高效部署。
评估方法
运用高级指标和方法评估ASR和TTS系统的性能。