即使使用词错误率(WER)等性能指标进行评估,先进的自动语音识别系统也鲜少达到满分。答案在于人类语音固有的复杂性和多样性。自动语音识别(ASR)系统的准确性受多种因素的显著影响,从音频清晰度到所说具体词语。了解这些难点对于构建可靠的应用和设定系统性能的实际预期很重要。噪声问题也许最容易理解的问题就是声学噪声。声学模型经过训练,旨在将特定音频特征映射到音素。当音频信号被噪声干扰时,这些特征会失真,使得这种映射任务变得明显更难。背景噪声: 这包括持续稳定的声音,如空调嗡嗡声、办公室谈话声、街道交通声或咖啡馆里播放的音乐。模型可能将部分噪声误认为语音,或难以从环境中分离出说话者的声音。瞬时噪声: 这些是短促、突然的声音,如关门声、咳嗽声、狗叫声或电话铃声。这些能量爆发可能完全掩盖一个词或音节,导致转录中出现遗漏或误解。信道噪声: 这种噪声源于录音和传输过程。低质量麦克风、不良手机信号或过度音频压缩(如某些MP3或在线会议软件中)会引入静电、伪影和失真,而这些在原始声学环境中是不存在的。对于声学模型来说,清晰录制的“hello”与在水龙头旁说出的“hello”听起来非常不同。从噪声信号中提取的特征将不匹配模型在训练中学到的清晰模式,从而导致错误。说话者差异每个人说话方式不同,这种变异性对于普适型自动语音识别系统来说是一个不小的障碍。口音和方言: 声学模型通过大量语音数据进行训练。如果这些数据主要包含一种口音(例如,通用美式英语),当模型遇到不同口音(例如苏格兰、印度或美国南方英语)的说话者时,其性能会下降。元音和辅音的发音在不同方言间可能系统性地有所差异,与模型学到的声音模式产生不匹配。说话风格: 同一个人可以用多种方式说同一句话。快语速、慢语速、快乐、悲伤、愤怒或含糊的说话都会产生不同的声学信号。例如,快语速通常会导致协同发音,即音素相互融合,使其更难区分。情感语音会改变音高、音量和语调,这也会让一个经过中性、清晰发音语音训练的模型感到困惑。歧义与未知词汇有些困难并非源于音频本身,而在于所说的语言。语言模型的局限性在此处变得显而易见。同音异义词: 这些词听起来相同,但拼写和含义不同,例如“to”、“too”和“two”,或者“there”、“their”和“they're”。声学模型会对所有变体生成相同的音素序列。语言模型的职责是利用语境选择正确的词。对于短语“I went ___ the store”,语言模型应正确选择“to”,但如果语境模棱两可,它仍然可能出错。词汇外(OOV)词汇: 自动语音识别系统的词典和语言模型仅限于其在训练期间遇到的词汇。它们对新词汇一无所知。这包括专有名词(如“Zendaya”或“Pytorch”)、新造俚语或高度专业的技术术语。当一个词汇外词被说出时,解码器别无选择,只能尝试使用听起来相似的已知词汇序列来表示它,这通常会产生无意义的输出(例如,将“OpenAI”转录为“open A. I.”)。录音条件语音录制所处的物理环境对系统准确性影响很大。远场与近场音频: 近场音频是用靠近说话者嘴巴的麦克风捕捉的,例如耳机或贴近耳朵的手机。音频清晰直接。远场音频是由距离较远的麦克风捕捉的,例如客厅中的智能音箱或会议室麦克风。在这种情况下,声波在到达麦克风之前会从墙壁、地板和家具上反弹。这种效应称为混响,它会模糊音频信号,导致音素重叠且不那么清晰。重叠语音: 大多数自动语音识别系统被设计为一次只转录一个说话者的语音。当两人或多人同时说话(也称为串扰)时,他们的音频信号会混杂在一起。将这些混合信号分离成独立的、连贯的流是一个非常困难的问题,被称为“说话人分离”或“音源分离”,这是标准自动语音识别流程中常见的失败点。这些困难并非相互独立;一个用例通常会同时涉及好几个,例如多位口音不同的人在一个嘈杂、有混响的房间里说话。digraph G { rankdir=TB; splines=ortho; bgcolor="transparent"; node [shape=box, style="rounded,filled", fontname="sans-serif", margin="0.2,0.1"]; edge [fontname="sans-serif"]; "ASR System" [label="ASR 系统", fillcolor="#e9ecef", style="rounded,filled,bold"]; "High WER" [label="高 WER", fillcolor="#ffc9c9", style="rounded,filled,bold"]; "Noise" [label="噪声", fillcolor="#a5d8ff"]; "Accents" [label="口音", fillcolor="#96f2d7"]; "Homophones" [label="同音异义词", fillcolor="#ffd8a8"]; "OOV Words" [label="词汇外词汇", fillcolor="#ffec99"]; "Reverb" [label="混响", fillcolor="#d0bfff"]; "Crosstalk" [label="串扰", fillcolor="#fcc2d7"]; "Speaking Style" [label="说话风格", fillcolor="#b2f2bb"]; {Noise, Accents, "Speaking Style", Homophones, "OOV Words", Reverb, Crosstalk} -> "ASR System" [color="#868e96"]; "ASR System" -> "High WER" [label=" 导致", color="#868e96"];}影响自动语音识别(ASR)系统性能、导致词错误率(WER)升高的常见因素概述。