趋近智
想象一下,在一个嘈杂的房间里,比如繁忙的咖啡馆或吵闹的音乐会,你正努力听清某人说话。你会本能地怎么做?很可能,你不仅会注意听到的声音,还会观察对方的嘴唇。人类这种结合声音与视觉的自然能力,是利用视觉信息改进自动语音识别(ASR)系统的缘由。
传统的ASR系统,即驱动语音助手和听写软件的那些,仅依靠音频输入。尽管它们已取得显著进展,但在背景噪音大、多人讲话或音频质量不佳的环境中,其性能会受到明显影响。和人类一样,AI也常通过运用多种感官来取得更佳效果。
在多模态AI的范畴内,一种常被称为音视频语音识别(AVSR)的方法,让AI系统不仅能“听”到语音,还能“看”到说话者。对语音而言,最重要的视觉信息通常源自嘴唇动作。我们嘴唇在发出不同声音(即音素,声音的基本单元)时形成的各种形状,提供了一种有价值且常有区别的信息来源,可与麦克风捕获的内容互补。
试想在嘈杂环境中区分 /p/ 和 /b/ 等声音。听觉上,它们容易混淆。然而,从视觉上看,/p/(气流喷出)和 /b/(浊音,爆破性较低)的嘴唇闭合方式能提供辨别线索。通过处理音频声波和说话者嘴部的视频,AVSR系统能对所说的话语做出更明智、更精确的判断。
这不仅仅是巧妙的工程技术。它与人类感知的工作方式非常相似。一个被称为麦格克效应的有趣现象清楚地表明了视觉输入在塑造我们听觉方面的影响力。例如,如果你看到一个人嘴型发出音节“ga-ga”,但同时音频播放的是“ba-ba”,你很可能会感知到第三种声音“da-da”,这是听觉和视觉信息的结合。AVSR系统旨在运用类似但计算上更具结构性的感官整合。
从宏观层面看,AVSR系统需要处理并理解两种不同的数据流:
一旦提取出这两组特征,一组来自声音,一组来自视觉,它们就需要被组合起来。这就是整合不同模态的技术发挥作用的地方,例如第3章中讨论的融合策略。系统可能在早期就组合这些特征,也可能先独立处理它们,然后在后期阶段再组合结果。无论采用何种具体方法,这种组合信息使得模型能比仅依赖音频时更准确地预测所说的词语序列。
音视频语音识别系统的简化流程。音频和视觉数据首先被分别处理以提取特征,然后这些信息被组合(融合),以生成更准确的语音转录。
将视觉信息整合到语音识别系统中带来几项重要益处:
虽然底层技术涉及复杂的机器学习模型,但AVSR的应用相当直观,并能解决常见难题:
AVSR的这个介绍再次说明了多模态AI系统如何通过结合来自不同来源的信息来提升能力。通过处理声音和视觉,这些系统能比仅限于单一数据类型的系统更有效地执行语音识别等任务,展示了AI模仿并在某些方面增强人类感知能力的能力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造