趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

趋近智

所有课程

应用语音识别

章节 1: 数字音频与语音入门

自动语音识别系统介绍

人类语音的特性：音素和同位音

数字音频信号：采样、量化与编码

在 Python 中使用 Librosa 处理音频数据

时域与频域分析

语音可视化中的语谱图入门

实践操作：加载与可视化音频波形

章节 2: 语音识别的特征提取

特征提取在ASR中的作用

梅尔频率倒谱系数 (MFCC)

MFCC的逐步计算

滤波器组和对数梅尔频谱图

特征归一化技术

MFCCs与频谱图作为输入特征的比较

实践：从数据集中提取和归一化特征

章节 3: 基于深度神经网络的声学建模

自动语音识别中的声学模型概述

使用循环神经网络构建声学模型

使用LSTM和GRU处理序列难题

联结主义时序分类 (CTC) 损失

实现基于CTC的ASR模型

动手实践：使用 CTC 训练一个简单 LSTM 声学模型

章节 4: 高级声学模型与架构

用于语音识别的注意力机制

自动语音识别 (ASR) 中的序列到序列 (Seq2Seq) 模型

听觉、注意与拼写 (LAS) 架构

自动语音识别中的 Transformer 模型概述

Conformer：结合卷积神经网络与Transformer

预训练ASR模型概述

实践：微调预训练ASR模型

章节 5: 语言模型与解码

语言模型在自动语音识别中的作用

N-gram 语言模型

使用 KenLM 构建 N-gram 模型

模型整合的解码图

解码算法：贪心搜索与集束搜索对比

结合语言模型实现束搜索

动手实践：将语言模型集成到 CTC 解码器中

章节 6: ASR系统的评估与部署

ASR 性能评估指标：词错误率 (WER) 和字符错误率 (CER)

计算词错率

语音数据的常用增强方法

使用Hugging Face流水线进行ASR

使用 Gradio 构建语音转文本应用

实时流式ASR的考虑事项

实践：评估和构建演示应用

数字音频与语音处理要点

章节 1: 数字音频与语音入门

要构建能理解语音的系统，我们必须先了解语音本身的结构及其数字表示方式。本章提供必要的背景知识，从声波的特性开始，到它在计算机上可供处理的数字表示形式。

我们将介绍从语音话语到机器可读格式的完整过程。你将学习人类语音的基本特性，以及将其数字化的技术步骤。一个表示为 $x(t)$ 的连续模拟音频信号，必须通过采样和量化 (quantization)等过程，转换为离散的数字序列 $x[n]$ 。

学完本章后，你将能够：

描述一个典型的自动语音识别（ASR）系统的高层架构。
辨认语音的基本语言单位，例如音素和音位变体。
解释模拟音频如何通过采样和量化转换为数字信号。
使用 Python Librosa 库加载和处理音频数据。
区分信号的时域和频域表示。
生成并理解语谱图，作为可视化语音的一种方式。

本章以一个动手练习作为结尾，你将应用这些技能来加载并可视化音频波形和语谱图，为后续的特征提取方法做准备。

课程章节

1.1 自动语音识别系统介绍
1.2 人类语音的特性：音素和同位音
1.3 数字音频信号：采样、量化与编码
1.4 在 Python 中使用 Librosa 处理音频数据
1.5 时域与频域分析
1.6 语音可视化中的语谱图入门
1.7 实践操作：加载与可视化音频波形

© 2026 ApX Machine Learning