趋近智
上一章中,我们使用LSTM和连接时序分类(CTC)损失函数构建了声学模型。尽管CTC是一种可行的方法,但它做了一个强假设,即每个时间步的输出预测是条件独立的。本章将介绍现代架构,这些架构直接建模输出字符或词语间的依赖关系,从而带来更准确、考虑语境的转录。
您将从注意力机制开始学习,它允许模型在生成转录本的每个部分时,选择性地关注输入音频中的相关片段。在此基础上,您将了解序列到序列(Seq2Seq)架构,例如Listen, Attend, and Spell (LAS) 模型,这些模型能将输入音频序列直接映射到输出文本序列。
随后,我们将介绍Transformer架构及其在音频处理中自注意力机制的使用。您将了解到这种设计如何捕捉整个音频输入中的依赖关系。我们还将考察Conformer模型,它是一种混合架构,结合了用于局部特征提取的卷积和Transformer的全局语境建模能力。
本章最后将概述Wav2Vec 2.0等大型预训练ASR模型。您将学习如何在特定数据集上微调这些模型,这是一种获得高表现的常用且有效方法。实践部分将指导您完成从Hugging Face库微调预训练模型的过程,让您直接体验领先的ASR工作流程。
4.1 用于语音识别的注意力机制
4.2 自动语音识别 (ASR) 中的序列到序列 (Seq2Seq) 模型
4.3 听觉、注意与拼写 (LAS) 架构
4.4 自动语音识别中的 Transformer 模型概述
4.5 Conformer:结合卷积神经网络与Transformer
4.6 预训练ASR模型概述
4.7 实践:微调预训练ASR模型
© 2026 ApX Machine Learning用心打造