尽管自动语音识别(ASR)的词错误率(WER)和文本转语音(TTS)的平均主观评分(MOS)提供了重要的宏观衡量标准,但它们在描述复杂现代系统的性能细节方面常有不足。随着模型日趋复杂,能应对各类声音环境,生成更自然的语音,并完成专门任务,我们的评估工具也要进步。仅依赖词错误率或平均主观评分,可能掩盖系统特定优缺点,妨碍针对性改进。因此,讨论评估方法,扩展至能够提供对先进语音处理流程行为更精细理解的衡量标准。
ASR 评估的更全面考察
词错误率(WER)的计算方法简单,如下所示:
WER=NS+D+I
其中 S 是替换的数量,D 是删除的数量,I 是插入的数量,N 是参考文本中的总词数,它给出一个数字来概括整体准确度。但它对所有错误一视同仁,且不提供错误发生原因的信息。
诊断性错误分析
为更好了解模型局限,我们必须进行诊断性评估。这需要依据多种因素细分词 (tokenization)错误率:
- 错误类型: 分析替换、删除和插入的相对比例能指明特定问题。例如,高删除率可能表明语音端点检测或快速语音处理存在问题,而高插入率则可能提示模型存在噪声敏感或幻觉 (hallucination)问题。
- 声音环境: 分别评估在纯净数据与噪声数据上,或在用不同麦克风录制的数据上的性能,有助于量化 (quantization)其鲁棒性。按信噪比(SNR)水平分层计算词错误率是常见做法。
- 说话者特征: 性能因口音、语速或声带特点的不同,在不同说话者之间差异很大。按说话者或特定人群(如果元数据可用)评估词错误率可以显示偏差或需要调整的地方。
- 语言语境: 某些语音语境或不常见的词语可能持续存在问题。根据语音属性、词频或周围语法结构分析错误,可提供更细致的洞察。
特定任务衡量标准
对于集成到下游应用中的系统,整体词错误率可能不如其在特定信息单元上的表现重要。
- 槽位错误率(SER): 在常与ASR结合的口语理解(SLU)系统(例如,语音助手)中,主要目标是提取特定语义信息(“槽位”)。槽位错误率衡量这些提取槽位的准确性,这可能比完整转录的词级别准确性更具意义。例如,如果意图和“五分钟”这一槽位被正确获取,则正确识别“设置计时器,五分钟”比填充词中的小错误更重要。
延迟与流式评估
对于实时应用,如实时字幕或语音命令,延迟与准确度同等重要。
- 实时因子(RTF): 衡量处理时间与音频时长的比值。
RTF=音频时长处理时间
实时处理需要远小于1.0的实时因子。
- 平均滞后: 对于RNN-T等流式模型,此衡量标准衡量一个词语被说出与系统完全识别并输出该词之间的平均延迟。这对交互场景下的用户体验非常重要。
MOS的TTS详细评估
平均主观评分(MOS)为整体感知到的自然度或质量提供单一分数,通常在1-5分量表上,取多个听众的平均值。它虽然有价值,但其受听众主观性、潜在量表压缩(听众可能避免打极端分数)的限制,且不能精确指出特定质量问题。
主观评估的替代方法
-
对比测试(A/B,MUSHRA): 听众比较不同系统的输出,而非给出绝对评分。A/B测试涉及成对偏好判断(“哪个听起来更好?”)。MUSHRA(多重刺激隐式参考和锚点)测试(ITU-R BS.1534)要求听众在一个连续量表(0-100)上,对多个系统相对于一个高质量的隐式参考和一个已知低质量的锚点进行评分。这些方法通常能更好地区分高质量系统。
三个TTS系统的MOS和MUSHRA分数对比,MUSHRA可能对高质量系统展现出更好的区分度。
-
特定属性评分: 听众对“自然度”、“可懂度”、“说话者相似性”(用于声音克隆)、“情感适切性”或特定“伪影”(例如,嗡嗡声、故障)等特定属性进行评分,而非单一的“质量”分数。
客观感知衡量标准
这些衡量标准旨在无需听力测试即可通过计算近似人类感知方面的特征。它们在开发过程中用于快速迭代很有用,但并非总能与主观分数完美对应。
- 梅尔倒谱失真(MCD): 衡量合成语音和自然语音的梅尔倒谱系数(与频谱包络相关的特征)之间的欧氏距离。MCD值越低通常表示频谱匹配越好。常通过动态时间规整(DTW-MCD)计算以对齐 (alignment)序列。
- F0均方根误差(F0 RMSE): 衡量基频(音高轮廓)预测与自然语音相比的误差。值越低表明音高水平上的韵律匹配越好。常在对数域计算(log F0 RMSE)。
- 时长预测误差: 衡量预测的音素/词语时长与自然语音中时长的差异。准确的时长建模对感知的节奏和自然度非常重要。
- 客观可懂度衡量标准: 像STOI(短时客观可懂度)或ESTOI这样的衡量标准,根据信号特性预测可懂度分数,用于评估嘈杂环境下的TTS性能很有用。
评估TTS的特定能力
先进的TTS模型通常有特定目标:
- 说话者相似性: 对于声音克隆或转换,说话者验证分数(使用x-向量 (vector)或d-向量)等客观衡量标准能量化 (quantization)合成语音与目标说话者的匹配程度。主观相似性评分也常见。
- 韵律/表现力评估: 评估合成语音是否传达了预期的风格、情感或强调是具有挑战性的。这通常高度依赖主观评分,并可能由特定指令或参考样本引导。客观分析可能涉及将与韵律相关的声学特征(F0方差、能量轮廓、时长模式)与目标进行比较。
系统级与部署衡量标准
在考虑音频质量和准确度时,实际部署需要考虑以下因素:
- 模型大小: 模型的存储占用空间(例如,以兆字节或吉字节为单位)。
- 计算成本: 按每秒输入/输出的浮点运算(FLOPs)或乘加运算(MACs)次数衡量。
- 推理 (inference)速度: 在目标硬件(CPU、GPU、专用加速器)上处理的实际时间,常与ASR的实时因子(RTF)或TTS的首次字节时间(TTFB)及合成速度相关。
- 内存使用: 推理期间的峰值RAM或VRAM消耗。
这些因素在将模型部署到移动设备或边缘处理器等资源受限环境,或同时服务许多用户时,非常重要。优化技术(在第6章中介绍)旨在改进这些衡量标准,通常涉及准确度或质量的权衡。选择合适的评估指标集取决于你的ASR或TTS系统的具体目标及其预期应用。尽管词错误率和平均主观评分仍是标准起点,但全面的评估需要更细致地观察,分析错误模式,衡量感知属性,并考虑实际部署限制。这种方法对于推动先进语音技术的发展必不可少。