趋近智

所有课程

应用语音识别

章节 1: 数字音频与语音入门

自动语音识别系统介绍

人类语音的特性：音素和同位音

数字音频信号：采样、量化与编码

在 Python 中使用 Librosa 处理音频数据

时域与频域分析

语音可视化中的语谱图入门

实践操作：加载与可视化音频波形

章节 2: 语音识别的特征提取

特征提取在ASR中的作用

梅尔频率倒谱系数 (MFCC)

MFCC的逐步计算

滤波器组和对数梅尔频谱图

特征归一化技术

MFCCs与频谱图作为输入特征的比较

实践：从数据集中提取和归一化特征

章节 3: 基于深度神经网络的声学建模

自动语音识别中的声学模型概述

使用循环神经网络构建声学模型

使用LSTM和GRU处理序列难题

联结主义时序分类 (CTC) 损失

实现基于CTC的ASR模型

动手实践：使用 CTC 训练一个简单 LSTM 声学模型

章节 4: 高级声学模型与架构

用于语音识别的注意力机制

自动语音识别 (ASR) 中的序列到序列 (Seq2Seq) 模型

听觉、注意与拼写 (LAS) 架构

自动语音识别中的 Transformer 模型概述

Conformer：结合卷积神经网络与Transformer

预训练ASR模型概述

实践：微调预训练ASR模型

章节 5: 语言模型与解码

语言模型在自动语音识别中的作用

N-gram 语言模型

使用 KenLM 构建 N-gram 模型

模型整合的解码图

解码算法：贪心搜索与集束搜索对比

结合语言模型实现束搜索

动手实践：将语言模型集成到 CTC 解码器中

章节 6: ASR系统的评估与部署

ASR 性能评估指标：词错误率 (WER) 和字符错误率 (CER)

计算词错率

语音数据的常用增强方法

使用Hugging Face流水线进行ASR

使用 Gradio 构建语音转文本应用

实时流式ASR的考虑事项

实践：评估和构建演示应用

章节 5: 语言模型与解码

在前面的章节中，我们构建了将音频特征映射到字符概率序列的声学模型。虽然这些模型在识别语音内容方面很有效，但它们的输出可能在声学上听起来合理，但在语言上不正确。例如，模型可能会将“recognize speech”转录为发音相似的“wreck a nice beach”。

这就是引入语言模型 (LM) 的地方。语言模型根据其语法结构和出现可能性来评估一个词语序列，帮助系统区分合理与不合理的转录。使用语言模型指导从声学模型预测中选择最终文本的过程称为解码。解码器的目标是找到使组合得分最大化的词语序列 $W$ ，这通常是声学和语言模型概率的加权和：

\text{score}(W) = \log P_{\text{Acoustic}}(X|W) + \alpha \log P_{\text{Language Model}}(W)

这里， $P_{\text{Acoustic}}(X|W)$ 是声学模型在给定词语序列 $W$ 时分配给音频特征 $X$ 的概率。 $P_{\text{Language Model}}(W)$ 项是词语序列本身的概率，而 $\alpha$ 是一个平衡两种模型影响的权重 (weight)。

本章讲述了将语言模型整合到 ASR 系统中的理论与实践。您将学习：

阐述语言模型在 ASR 流程中的作用。
使用 KenLM 工具包从文本语料库构建统计 N-gram 语言模型。
比较简单的贪心搜索解码与更有效的束搜索算法。
实现一个束搜索解码器，该解码器引入外部语言模型的评分以提高转录准确性。

课程章节

5.1 语言模型在自动语音识别中的作用
5.2 N-gram 语言模型
5.3 使用 KenLM 构建 N-gram 模型
5.4 模型整合的解码图
5.5 解码算法：贪心搜索与集束搜索对比
5.6 结合语言模型实现束搜索
5.7 动手实践：将语言模型集成到 CTC 解码器中

© 2026 ApX Machine Learning