趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

趋近智

所有课程

语音识别入门

章节 1: 语音识别的基本原理

什么是自动语音识别（ASR）？

自动语音识别系统简史

语音识别处理流程的组成要素

语音识别的类型：说话人相关型与说话人无关型

语音识别的分类：孤立词识别与连续语音识别

计算机如何处理声音：数字音频基础

语音单位与言语基本组成部分简介

章节 2: 处理音频信号

从声波到数字数据：采样与量化

了解音频格式（WAV、MP3、FLAC）

语音可视化：波形图与频谱图

预加重与分帧

窗口函数详解

特征提取简介

生成梅尔频率倒谱系数 (MFCC)

动手实践：音频文件可视化与处理

章节 3: 声学模型

什么是声学模型？

将声音映射到音素

早期方法：高斯混合模型 (GMMs)

隐马尔可夫模型 (HMM) 在序列数据中的应用

GMM与HMM的结合

基于神经网络的声学模型介绍

语音模型在ASR系统中的作用

章节 4: 语言模型

什么是语言模型？

语音中的歧义问题

N-gram 语言模型：二元语法和三元语法

词语序列概率的计算

困惑度详解

语言模型如何提高准确性

神经网络语言模型简介

章节 5: 解码与系统集成

解码器的作用

确定最可能的词语序列

搜索算法概览

理解维特比算法

完整的ASR流程：回顾

评估表现：词错率 (WER)

语音识别中的常见挑战

章节 6: 构建你的第一个语音识别应用程序

语音识别API与库简介

配置Python环境

使用预训练模型进行转录

从文件中转录音频

实时获取并转录麦克风输入

处理 API 响应和错误

实践：构建一个简单的语音命令工具

语音识别中的声学模型

章节 3: 声学模型

将原始音频转换为特征向量 (vector)序列后，下一步是将这些特征映射到语言的基本语音单位。这是声学模型的主要作用。它回答了这样一个问题：给定一小段音频，其中特定音素（如 /k/、/æ/ 或 /t/）被说出的概率是多少？

声学模型提供了音频信号与其对应音素单位之间的统计关联。它计算似然度 $P(\text{audio_features} | \text{phoneme})$ ，这个概率是最终转录过程的重要输入。

在本章中，您将学习到：

声学模型在ASR（自动语音识别）流程中的作用。
传统的使用高斯混合模型（GMMs）来表示每个音素的音频特征的方法。
隐马尔可夫模型（HMMs）如何用于处理语音中的序列模式。
神经网络 (neural network)如何用于现代声学模型搭建的介绍。

最后，您将清楚了解这个组件如何将处理过的声音与语音的基本构成单位联系起来。

课程章节

3.1 什么是声学模型？
3.2 将声音映射到音素
3.3 早期方法：高斯混合模型 (GMMs)
3.4 隐马尔可夫模型 (HMM) 在序列数据中的应用
3.5 GMM与HMM的结合
3.6 基于神经网络的声学模型介绍
3.7 语音模型在ASR系统中的作用

© 2026 ApX Machine Learning