ApX 标志ApX 标志

趋近智

应用语音识别
章节 1: 数字音频与语音入门
自动语音识别系统介绍
人类语音的特性:音素和同位音
数字音频信号:采样、量化与编码
在 Python 中使用 Librosa 处理音频数据
时域与频域分析
语音可视化中的语谱图入门
实践操作:加载与可视化音频波形
章节 2: 语音识别的特征提取
特征提取在ASR中的作用
梅尔频率倒谱系数 (MFCC)
MFCC的逐步计算
滤波器组和对数梅尔频谱图
特征归一化技术
MFCCs与频谱图作为输入特征的比较
实践:从数据集中提取和归一化特征
章节 3: 基于深度神经网络的声学建模
自动语音识别中的声学模型概述
使用循环神经网络构建声学模型
使用LSTM和GRU处理序列难题
联结主义时序分类 (CTC) 损失
实现基于CTC的ASR模型
动手实践:使用 CTC 训练一个简单 LSTM 声学模型
章节 4: 高级声学模型与架构
用于语音识别的注意力机制
自动语音识别 (ASR) 中的序列到序列 (Seq2Seq) 模型
听觉、注意与拼写 (LAS) 架构
自动语音识别中的 Transformer 模型概述
Conformer:结合卷积神经网络与Transformer
预训练ASR模型概述
实践:微调预训练ASR模型
章节 5: 语言模型与解码
语言模型在自动语音识别中的作用
N-gram 语言模型
使用 KenLM 构建 N-gram 模型
模型整合的解码图
解码算法:贪心搜索与集束搜索对比
结合语言模型实现束搜索
动手实践:将语言模型集成到 CTC 解码器中
章节 6: ASR系统的评估与部署
ASR 性能评估指标:词错误率 (WER) 和字符错误率 (CER)
计算词错率
语音数据的常用增强方法
使用Hugging Face流水线进行ASR
使用 Gradio 构建语音转文本应用
实时流式ASR的考虑事项
实践:评估和构建演示应用