所有课程

语音识别入门

章节 1: 语音识别的基本原理

什么是自动语音识别（ASR）？

自动语音识别系统简史

语音识别处理流程的组成要素

语音识别的类型：说话人相关型与说话人无关型

语音识别的分类：孤立词识别与连续语音识别

计算机如何处理声音：数字音频基础

语音单位与言语基本组成部分简介

章节 2: 处理音频信号

从声波到数字数据：采样与量化

了解音频格式（WAV、MP3、FLAC）

语音可视化：波形图与频谱图

预加重与分帧

窗口函数详解

特征提取简介

生成梅尔频率倒谱系数 (MFCC)

动手实践：音频文件可视化与处理

章节 3: 声学模型

什么是声学模型？

将声音映射到音素

早期方法：高斯混合模型 (GMMs)

隐马尔可夫模型 (HMM) 在序列数据中的应用

GMM与HMM的结合

基于神经网络的声学模型介绍

语音模型在ASR系统中的作用

章节 4: 语言模型

什么是语言模型？

语音中的歧义问题

N-gram 语言模型：二元语法和三元语法

词语序列概率的计算

困惑度详解

语言模型如何提高准确性

神经网络语言模型简介

章节 5: 解码与系统集成

解码器的作用

确定最可能的词语序列

搜索算法概览

理解维特比算法

完整的ASR流程：回顾

评估表现：词错率 (WER)

语音识别中的常见挑战

章节 6: 构建你的第一个语音识别应用程序

语音识别API与库简介

配置Python环境

使用预训练模型进行转录

从文件中转录音频

实时获取并转录麦克风输入

处理 API 响应和错误

实践：构建一个简单的语音命令工具

困惑度详解

这部分内容有帮助吗？

参考文献

Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky and James H. Martin, 2025 (Pearson) - 一本全面的教材，详细解释了语言模型、N-gram以及作为评估指标的困惑度。
Foundations of Statistical Natural Language Processing, Christopher D. Manning and Hinrich Schütze, 1999 (The MIT Press) - 统计自然语言处理的奠基性著作，涵盖了语言模型的数学基础和困惑度在模型评估中的作用。
Fundamentals of Speech Recognition, Lawrence R. Rabiner, Biing-Hwang Juang, 1993 (Prentice Hall) - 语音识别领域的经典教材，提供了语音识别系统中语言模型评估（包括困惑度）的背景信息。
One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling, Ciprian Chelba, Thorsten Brants, Anna Chorowski, Michael Kayser, Philip Robinson, and Li Zhang, 2014 International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE) DOI: 10.1109/ICASSP.2014.6854890 - 介绍了一个广泛使用的基准数据集，并使用困惑度评估了各种语言模型，展示了其在研究中的实际重要性。

© 2025 ApX Machine Learning用心打造