趋近智
尽管复杂的声学和语言模型构成了现代ASR系统的主要部分,但它们的表现高度依赖于大量准确标注的语音数据集的获取。创建此类数据集成本高昂且耗时,特别是在特定方面或使用较少语言时。这种数据瓶颈促使人们采用无监督和半监督学习方法,使我们能够使用大量现成的未标注音频数据。
考虑一下每天产生的音频数据的庞大数量:播客、视频通话、广播、个人录音。这些数据大部分缺少相应的文本转录。传统的ASR监督学习方法无法直接使用这些未标注数据。无监督和半监督方法弥补了这一不足,使模型能够直接从音频中学习,明显提升了表现,特别是在资源较少的情况下。
无监督预训练侧重于学习有意义的表示,直接从原始音频波形或派生特征中获取,无需任何转录。核心思想是仅使用未标注音频,针对一项预设任务来训练一个强大的神经网络(通常是Transformer或CNN/Transformer混合体)。一旦预训练完成,该网络,特别是其作为特征提取器的较低层,可以在小得多的标注数据集上进行微调,以完成实际的ASR任务(例如,预测字符或音素)。
常见的预训练策略包括:
对比学习: 像对比预测编码(CPC)这样的方法训练模型来区分真实的未来音频片段与随机采样的负样本片段,在给定过去上下文的情况下。这使得模型必须学习能够捕捉语音信号时序关联和基本特点的表示。目标函数通常旨在最大化上下文和未来片段之间的互信息。
掩码预测: 受NLP中BERT的启发,像wav2vec 2.0和HuBERT这样的模型对语音预训练进行了改进。
ASR中无监督预训练后接监督微调的流程。
预训练的主要益处是模型能从多种音频数据中学习通用特征。微调时,即使只有有限的标注样本,它也能迅速适应并获得明显更好的准确性和泛化能力,与仅在小量标注集上从头开始训练相比。
半监督学习方法在ASR模型训练或适应过程中,将未标注数据直接与标注数据结合使用。
自训练(伪标注): 这是一种普遍且有效的迭代方法:
尽管强大,自训练需要谨慎处理。嘈杂或不正确的伪标签可能导致确认偏误,使模型强化自身的错误。置信度估计和过滤策略是重要的组成部分。通常,步骤1从一个强大的预训练模型(如上所述)开始会带来最佳结果。
一致性正则化: 这些方法在损失函数中增加了一个正则化项,鼓励模型为相同未标注输入的扰动版本生成一致的预测。例如,您可以将一个未标注音频片段和略微增强的版本(例如,添加噪声或应用SpecAugment)输入模型,并惩罚它们输出分布的差异。这促使模型学习对微小、不相关输入变化不变的表示。
transformers、NVIDIA NeMo、ESPnet和Fairseq等库提供了wav2vec 2.0和HuBERT等模型的实现和预训练权重,以及微调和有时自训练流程的方案。这大大降低了使用这些高级方法的门槛。词错误率(WER)示例,显示了使用未标注数据进行预训练和自训练如何能够大幅提高ASR的表现,与仅使用有限标注数据相比。WER越低越好。(数值为示意性)。
通过有效利用预训练或半监督方法中的未标注音频,我们能够构建更准确的ASR系统,克服了转录数据可得性带来的限制,并推动了语音识别在不同语言和方面的表现进步。这些方法通常是先进ASR流程中的重要组成部分。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造