所有课程

应用语音识别

章节 1: 数字音频与语音入门

自动语音识别系统介绍

人类语音的特性：音素和同位音

数字音频信号：采样、量化与编码

在 Python 中使用 Librosa 处理音频数据

时域与频域分析

语音可视化中的语谱图入门

实践操作：加载与可视化音频波形

章节 2: 语音识别的特征提取

特征提取在ASR中的作用

梅尔频率倒谱系数 (MFCC)

MFCC的逐步计算

滤波器组和对数梅尔频谱图

特征归一化技术

MFCCs与频谱图作为输入特征的比较

实践：从数据集中提取和归一化特征

章节 3: 基于深度神经网络的声学建模

自动语音识别中的声学模型概述

使用循环神经网络构建声学模型

使用LSTM和GRU处理序列难题

联结主义时序分类 (CTC) 损失

实现基于CTC的ASR模型

动手实践：使用 CTC 训练一个简单 LSTM 声学模型

章节 4: 高级声学模型与架构

用于语音识别的注意力机制

自动语音识别 (ASR) 中的序列到序列 (Seq2Seq) 模型

听觉、注意与拼写 (LAS) 架构

自动语音识别中的 Transformer 模型概述

Conformer：结合卷积神经网络与Transformer

预训练ASR模型概述

实践：微调预训练ASR模型

章节 5: 语言模型与解码

语言模型在自动语音识别中的作用

N-gram 语言模型

使用 KenLM 构建 N-gram 模型

模型整合的解码图

解码算法：贪心搜索与集束搜索对比

结合语言模型实现束搜索

动手实践：将语言模型集成到 CTC 解码器中

章节 6: ASR系统的评估与部署

ASR 性能评估指标：词错误率 (WER) 和字符错误率 (CER)

计算词错率

语音数据的常用增强方法

使用Hugging Face流水线进行ASR

使用 Gradio 构建语音转文本应用

实时流式ASR的考虑事项

实践：评估和构建演示应用

听觉、注意与拼写 (LAS) 架构

这部分内容有帮助吗？

参考文献

Listen, Attend and Spell, William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals, 2015 arXiv preprint arXiv:1508.01211 DOI: 10.48550/arXiv.1508.01211 - 介绍了用于端到端语音识别的Listen, Attend, and Spell (LAS)模型，详细阐述了其带有注意力的编解码器架构。
Sequence to Sequence Learning with Neural Networks, Ilya Sutskever, Oriol Vinyals, Quoc V. Le, 2014 Advances in Neural Information Processing Systems 27 (NIPS 2014), Vol. 27 (Neural Information Processing Systems Foundation, Inc. (NeurIPS)) DOI: 10.48550/arXiv.1409.3215 - 提出了基础的序列到序列学习框架，该框架是LAS模型处理自动语音识别方法的基础。
Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, 2014 International Conference on Learning Representations (ICLR 2015) DOI: 10.48550/arXiv.1409.0473 - 介绍了注意力机制，这是一个核心组件，允许解码器有选择地关注输入序列的特定部分，并被LAS模型采用。
Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks, Alex Graves, Santiago Fernández, Faustino Gomez, Jürgen Schmidhuber, 2006 Proceedings of the 23rd International Conference on Machine Learning (ICML '06) (Association for Computing Machinery) DOI: 10.1145/1150447.1150493 - 描述了连接时序分类 (CTC)，通过强调早期的序列建模方法，为LAS的发展提供了重要背景。

© 2026 ApX Machine Learning用心打造