趋近智
首页
博客
课程
大模型
中
所有课程
高级语音识别与合成
章节 1: 现代语音处理流程的核心组成
高级音频特征提取
语音统计建模回顾
序列的深度学习结构
ASR 系统组成部分
文本转语音(TTS)系统的组成部分
评估指标的再审视
章节 2: 高级ASR声学建模
混合HMM-DNN系统
联结主义时间分类 (CTC)
注意力机制的编码器-解码器模型
RNN 转导器 (RNN-T)
用于自动语音识别的Transformer架构
高级训练方法
解码算法比较
动手实践:构建一个端到端ASR模型
章节 3: ASR中的语言建模与适应
ASR中的神经网络语言模型
浅层集成与深度集成
语境ASR
说话人适应技术
环境与信道适应
自动语音识别中的无监督和半监督学习
多语言和跨语言自动语音识别
实践:使用适应数据微调ASR
章节 4: 高级文本到语音合成
自回归声学模型 (Tacotron, Transformer TTS)
非自回归声学模型 (FastSpeech, ParaNet)
基于流的文本到语音合成模型
生成对抗网络(GANs)在文本到语音中的应用
韵律建模与控制
富有表现力的语音合成
声音克隆与转换
动手实践:训练高级TTS模型
章节 5: 神经网络声码器与波形生成
传统声码器的不足之处
自回归波形模型(WaveNet, WaveRNN)
基于流的声码器 (WaveGlow, FloWaveNet)
基于GAN的声码器(MelGAN, HiFi-GAN)
用于声码器的扩散模型
神经网络声码器的条件化
合成音频质量评估
动手实践:使用神经声码器
章节 6: 优化、部署与工具集
语音模型量化
模型剪枝与稀疏化
ASR/TTS 的知识蒸馏
优化推理引擎(ONNX Runtime, TensorRT)
流式ASR的部署考量
实时文本转语音(TTS)的部署考虑
语音处理工具包(ESPnet, NeMo, Coqui)概述
实践:优化语音模型
传统声码器的不足之处
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
传统声码器的不足之处(例如Griffin-Lim)