所有课程

语音识别入门

章节 1: 语音识别的基本原理

什么是自动语音识别（ASR）？

自动语音识别系统简史

语音识别处理流程的组成要素

语音识别的类型：说话人相关型与说话人无关型

语音识别的分类：孤立词识别与连续语音识别

计算机如何处理声音：数字音频基础

语音单位与言语基本组成部分简介

章节 2: 处理音频信号

从声波到数字数据：采样与量化

了解音频格式（WAV、MP3、FLAC）

语音可视化：波形图与频谱图

预加重与分帧

窗口函数详解

特征提取简介

生成梅尔频率倒谱系数 (MFCC)

动手实践：音频文件可视化与处理

章节 3: 声学模型

什么是声学模型？

将声音映射到音素

早期方法：高斯混合模型 (GMMs)

隐马尔可夫模型 (HMM) 在序列数据中的应用

GMM与HMM的结合

基于神经网络的声学模型介绍

语音模型在ASR系统中的作用

章节 4: 语言模型

什么是语言模型？

语音中的歧义问题

N-gram 语言模型：二元语法和三元语法

词语序列概率的计算

困惑度详解

语言模型如何提高准确性

神经网络语言模型简介

章节 5: 解码与系统集成

解码器的作用

确定最可能的词语序列

搜索算法概览

理解维特比算法

完整的ASR流程：回顾

评估表现：词错率 (WER)

语音识别中的常见挑战

章节 6: 构建你的第一个语音识别应用程序

语音识别API与库简介

配置Python环境

使用预训练模型进行转录

从文件中转录音频

实时获取并转录麦克风输入

处理 API 响应和错误

实践：构建一个简单的语音命令工具

动手实践：音频文件可视化与处理

这部分内容有帮助吗？

参考文献

Speech and Language Processing (3rd ed. draft), Daniel Jurafsky and James H. Martin, 2025 - 这是一本涵盖语音处理基础知识的综合性教材的在线草稿，包括信号分析和MFCC等特征提取。
librosa: Audio and music analysis in Python, Brian McFee, Colin Raffel, Dawen Liang, Daniel PW Ellis, Matt McVicar, Eric Battenberg, Oriol Nieto, 2015 Proceedings of the 14th Python in Science Conference DOI: 10.25080/majora-7b9e6e87-00c - librosa Python库的官方文档，提供了音频分析和特征提取的实用指南及API参考。
Digital Signal Processing: Principles, Algorithms, and Applications, John G. Proakis and Dimitris G. Manolakis, 2007 (Pearson Prentice Hall) - 一本数字信号处理的理论基础标准教材，对于理解采样、傅里叶变换和频谱分析等概念具有重要意义。

© 2025 ApX Machine Learning用心打造