趋近智
声学建模是自动语音识别(ASR)系统的核心部分,它负责将输入的音频特征映射成音素或字符等语言单元。承接上一章内容,本章将介绍支撑当前先进ASR的复杂深度学习 (deep learning)架构。
本章将详细介绍现代声学模型的架构和训练方法。你将学习:
我们将分析每种方法相关的数学公式、实现细节和权衡。本章包含一个实践环节,你将构建并训练一个端到端ASR模型,将这些思想付诸实践。
2.1 混合HMM-DNN系统
2.2 联结主义时间分类 (CTC)
2.3 注意力机制的编码器-解码器模型
2.4 RNN 转导器 (RNN-T)
2.5 用于自动语音识别的Transformer架构
2.6 高级训练方法
2.7 解码算法比较
2.8 动手实践:构建一个端到端ASR模型