趋近智
将原始音频转换为结构化特征向量后,下一步是构建一个模型,将这些特征映射到它们对应的文本转录。这是声学模型的主要作用,它是学习语音与字符等语言单元之间关联的组成部分。
本章介绍深度神经网络在声学建模中的使用。我们将从分析循环神经网络 (RNN) 及其更强大的变体——长短期记忆 (LSTM) 网络和门控循环单元 (GRU) 网络——如何构建以处理序列数据开始。
此过程中的一个主要难点在于输入特征序列和输出文本序列的长度不同,并且没有明确的对齐关系。我们将使用连接主义时间分类 (CTC) 损失函数来解决这个问题。CTC 是一种机制,它允许网络自动学习对齐,从而简化训练过程。目标是训练一个模型,将输入特征序列 映射到目标字符序列 ,其中输入长度 通常不等于输出长度 。
本章结束时,你将学习到如何:
本章以一个动手实践环节作结,在此环节中,你将构建并训练一个基本的 LSTM-CTC 声学模型。
3.1 自动语音识别中的声学模型概述
3.2 使用循环神经网络构建声学模型
3.3 使用LSTM和GRU处理序列难题
3.4 联结主义时序分类 (CTC) 损失
3.5 实现基于CTC的ASR模型
3.6 动手实践:使用 CTC 训练一个简单 LSTM 声学模型
© 2026 ApX Machine Learning用心打造