趋近智
本课程提供一份全面的指南,用于构建和实现自动语音识别 (ASR) 系统。内容涵盖完整的工作流程,从音频信号处理和特征提取,到构建和训练现代深度学习 (deep learning)模型。学员将使用当前的工具和架构,例如 LSTM、Transformer 和连接时序分类 (CTC) 损失,来构建实用的语音转文本管道。本材料专为具备机器学习 (machine learning)背景并希望在语音技术方面培养实用技能的工程师和开发人员设计。
先修课程 Python 及机器学习知识
级别:
音频预处理
为 ASR 模型预处理和准备音频数据。
特征提取
实现 MFCC 和对数梅尔频谱图等特征提取技术。
声学建模
使用 RNN、LSTM 和 Transformer 构建和训练声学模型。
语言建模
将语言模型整合到解码过程中以提高准确率。
系统评估
使用 WER 等标准度量评估和基准测试 ASR 系统性能。
部署
构建实用的语音转文本应用管道。