趋近智
从头构建大型Transformer或Conformer模型可以取得显著成果,但这种方式需要两种稀缺资源:海量的标注训练数据和庞大的计算能力。对于许多组织和开发者来说,在这些限制下创建高质量的ASR系统是不切实际的。这一挑战促使该领域向使用预训练模型发生了重大转变。
这些模型背后的核心思想是:首先在一个不需要手动创建标注的通用、大规模任务上训练一个大型神经网络,然后将这个已学习的模型应用于特定的、较小的标注数据集。这种两阶段过程,被称为预训练和微调,已成为在ASR中实现优异性能的标准做法。
促成语音预训练的创新是自监督学习(SSL)。与需要成对输入和输出(音频及其文本)的监督学习不同,自监督学习直接从输入数据生成自己的标注。这使得模型能够从大量未标注音频中学习到丰富且有意义的表征,而未标注音频比已转录音频更易获得。
一般做法是向模型提供音频样本的修改版本,并训练它预测原始、未修改的版本。通过解决这个人工设定的问题,模型被迫学习人类语音的底层结构,例如语音学、协同发音和韵律,而无需看到任何文本标注。
在语音方面最具影响力的自监督模型之一是Wav2Vec 2.0。它直接从原始音频波形中学习强大的语音表征。其架构由三个主要部分组成:
这一过程类似于BERT等文本模型中的掩码语言建模。通过学习填补音频中的空白,Transformer的语境化器变得非常擅长理解语音话语不同部分之间的关系。
模型在数千小时的未标注音频上预训练完成后,可以将其适配特定ASR任务,例如转录英语电话通话。这第二个阶段被称为微调。
过程简单明了:
Wav2Vec 2.0模型及其自监督阶段学习到的权重。量化模块被舍弃。微调阶段所需数据和计算量比从头训练显著减少,但它持续产生优异结果。
构建现代ASR系统的两阶段工作流程。首先,模型从未标注数据中学习通用语音特征。其次,该预训练模型使用较小规模的标注数据适配特定转录任务。
虽然Wav2Vec 2.0是一个基础模型,但该领域持续演进。以下是另外几个需要了解的重要模型:
Wav2Vec 2.0在思想上相似,HuBERT也使用掩码预测任务。其主要区别在于它如何为被遮蔽的步骤生成目标标注。它使用离线聚类步骤首先发现离散隐藏单元,使学习目标在训练期间更具一致性。Whisper模型代表了一种不同的方法。它们并非纯粹的自监督,而是在一个庞大且多样化的数据集上以“弱监督”方式训练,该数据集包含来自网络的680,000小时音频,且已与文本配对。由于这些数据涵盖多种语言、主题、口音和声学环境,Whisper模型极其强大,无需任何微调即可在各种任务上表现良好。它们是多语言和多任务的,能够执行转录和翻译。使用Wav2Vec 2.0、HuBERT或Whisper等预训练模型极大地降低了构建高质量ASR系统的进入门槛。在即将进行的实践部分,你会看到这种方法有多么有效,我们将为自定义语音识别任务微调来自Hugging Face Hub的预训练模型。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造