趋近智
评估神经声码器的输出对于知晓其性能和比较不同模型非常重要。与传统声码器中常见的嗡嗡声或模糊不清等明显局限不同,神经声码器旨在实现与真实人声在听觉上难以区分的效果。这一更高的标准要求更精细的评估方法,包括自动化信号分析和人耳判断。仅仅生成一个波形是不够的;我们需要衡量这个波形听起来有多好。
客观指标通过数学方式分析合成波形,并与真实(原始)录音进行比较。它们提供可重复的自动化评估,但可能不总与人耳感知完全一致。
对数频谱距离(LSD): 此指标衡量真实音频信号与合成音频信号之间对数功率谱的平均差异,通常逐帧计算。它衡量频谱内容的相似程度。LSD值越低,表示相似度越高。公式如下:
LSD=T1t=1∑TK1k=1∑K(10log10∣St(k)∣2−10log10∣S^t(k)∣2)2此处,St(k) 和 S^t(k) 分别表示原始信号和合成信号在时间帧 t 和频率 bin k 处的频谱幅度。T 是总帧数,K 是频率 bin 的数量。
梅尔倒谱失真(MCD): 这是语音合成中一个常用指标,用于衡量真实音频与合成音频之间梅尔倒谱系数(MCCs)的欧几里得距离。由于MCCs是根据人耳听觉系统对频率的感知(使用梅尔刻度)得出的,MCD被认为比原始频谱距离在听觉上更相关。它通常以分贝(dB)表示,值越低越好。计算通常涉及动态时间规整(DTW)来对齐MCC序列,然后再计算距离:
MCD[dB]=ln10102d=1∑D(mccd−mcc^d)2该公式计算对齐后特定维度 d(通常为13到40维)的失真。最终的 MCD 是所有帧的平均值。
信噪比(SNR)/ 分段信噪比(SegSNR): 信噪比(SNR)衡量原始信号功率与误差(原始信号与合成信号之差)功率的比值。通常SNR越高越好。分段信噪比(SegSNR)在短段(例如20-30毫秒)上计算SNR并取平均值,这通常比全局SNR与感知质量有更好的关联,因为它避免了安静片段在总计算中被响亮片段主导。然而,SNR指标可能对相位差异过于敏感,并且可能无法完全反映感知的自然度。
PESQ(语音质量感知评估): PESQ 在 ITU-T 建议 P.862 中定义,是一种用于预测主观听觉质量的算法。它通过复杂的听觉变换模型将原始参考信号与受损(合成)信号进行比较。输出分数通常在-0.5到4.5之间,接近平均主观意见得分(MOS),分数越高表示听觉质量越好。PESQ应用广泛,但需要真实参考信号。
STOI(短时客观清晰度): 该指标旨在通过衡量干净参考语音与处理后语音在不同频段短时帧内的时域包络相关性来预测语音清晰度。它产生0到1之间的分数,值越高表示清晰度越好。虽然主要用于噪声抑制评估,但它也能为合成语音的清晰度提供见解。
客观指标提供有价值的定量数据,但不能完全反映所有情况。一个模型可能在LSD或MCD上取得优异成绩,但仍然产生人类听者觉得不悦的不易察觉的瑕疵。
主观测试涉及人类听众对合成音频质量进行评级。它们被认为是听觉质量的最终衡量标准,但妥善进行会更耗时且成本更高。
平均主观意见得分(MOS): 这是最常见的主观测试。一组听众根据绝对质量或自然度量表对音频样本进行评分,通常从1到5分。
MOS测试需要仔细设置:受控的听音环境(例如,安静的房间、耳机),足够大且多样化的听众群体,清晰的指示,以及对结果进行统计分析(包括置信区间)以确保可靠性。
比较测试(A/B 或 A/B/X): 与绝对评级不同,听众直接比较两个(A/B)或更多样本。在A/B测试中,听众表达对样本A和样本B的偏好,或者表示没有偏好。在A/B/X测试中,听众听到A、B,然后是X(X是A或B),必须辨别X是匹配A还是B。这有助于衡量系统间的偏好和区分度。CMOS(比较MOS)分数通常从A/B测试中得出,表示在某个量表(例如-3到+3)上的平均偏好强度。
MUSHRA(多刺激隐藏参考与锚点): MUSHRA 由 ITU-R 建议 BS.1534 定义,在比较质量相近的多个系统时非常有用。听众同时收到多个刺激:原始参考(隐藏),被测各系统的输出,以及一个或多个低质量的“锚点”。听众根据参考,在0到100的连续量表上对每个刺激(如果提供的话,显式参考除外)进行评分。这种设置有助于听众校准他们的评分,并为高质量音频(其中差异可能很小)提供灵敏的衡量方法。
主观测试提供了对人类如何感知合成语音的最直接评估,反映了自然度、悦耳度以及客观指标可能遗漏的瑕疵等方面。
示例平均主观意见得分(MOS),比较了传统声码器(Griffin-Lim)与几种神经声码器。分数越高表示感知的自然度越好。请注意,实际分数很大程度上取决于具体的模型、训练数据和测试条件。
评估声码器时,请考虑以下几点:
最终,一个全面的评估策略将自动化客观指标用于快速迭代和诊断,并结合严格的主观测试来确认感知质量和自然度的真实改进。选择合适的组合取决于项目的目标和可用资源。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造