想象一下,在一个嘈杂的房间里,比如繁忙的咖啡馆或吵闹的音乐会,你正努力听清某人说话。你会本能地怎么做?很可能,你不仅会注意听到的声音,还会观察对方的嘴唇。人类这种结合声音与视觉的自然能力,是利用视觉信息改进自动语音识别(ASR)系统的缘由。传统的ASR系统,即驱动语音助手和听写软件的那些,仅依靠音频输入。尽管它们已取得显著进展,但在背景噪音大、多人讲话或音频质量不佳的环境中,其性能会受到明显影响。和人类一样,AI也常通过运用多种感官来取得更佳效果。为听觉添上视觉:视觉信息的作用在多模态AI的范畴内,一种常被称为音视频语音识别(AVSR)的方法,让AI系统不仅能“听”到语音,还能“看”到说话者。对语音而言,最重要的视觉信息通常源自嘴唇动作。我们嘴唇在发出不同声音(即音素,声音的基本单元)时形成的各种形状,提供了一种有价值且常有区别的信息来源,可与麦克风捕获的内容互补。试想在嘈杂环境中区分 /p/ 和 /b/ 等声音。听觉上,它们容易混淆。然而,从视觉上看,/p/(气流喷出)和 /b/(浊音,爆破性较低)的嘴唇闭合方式能提供辨别线索。通过处理音频声波和说话者嘴部的视频,AVSR系统能对所说的话语做出更明智、更精确的判断。这不仅仅是巧妙的工程技术。它与人类感知的工作方式非常相似。一个被称为麦格克效应的有趣现象清楚地表明了视觉输入在塑造我们听觉方面的影响力。例如,如果你看到一个人嘴型发出音节“ga-ga”,但同时音频播放的是“ba-ba”,你很可能会感知到第三种声音“da-da”,这是听觉和视觉信息的结合。AVSR系统旨在运用类似但计算上更具结构性的感官整合。它是如何运作的?AVSR的初步了解从宏观层面看,AVSR系统需要处理并理解两种不同的数据流:音频流: 说话的词语由麦克风捕获。这个音频信号随后被处理以提取声学特征。这些特征是声音重要特性的数值表示,与标准纯音频ASR系统中的情况类似。视频流: 摄像头录制说话者的视频,尤其侧重于他们的面部区域。系统通常会聚焦嘴唇区域(常称为感兴趣区域,即ROI)。从视频帧的这一部分中,提取视觉特征。这些特征描述了嘴唇随时间变化的形状、轮廓和动作。一旦提取出这两组特征,一组来自声音,一组来自视觉,它们就需要被组合起来。这就是整合不同模态的技术发挥作用的地方,例如第3章中讨论的融合策略。系统可能在早期就组合这些特征,也可能先独立处理它们,然后在后期阶段再组合结果。无论采用何种具体方法,这种组合信息使得模型能比仅依赖音频时更准确地预测所说的词语序列。digraph G { rankdir=TB; node [shape=box, style="rounded,filled", fillcolor="#a5d8ff", fontname="sans-serif", fontsize=10]; edge [color="#495057", fontname="sans-serif", fontsize=10]; subgraph cluster_input { label="输入"; style="rounded"; bgcolor="#e9ecef"; Audio [label="音频流\n(语音声音)", fillcolor="#74c0fc"]; Video [label="视频流\n(嘴唇动作)", fillcolor="#74c0fc"]; } subgraph cluster_processing { label="单模态特征提取"; style="rounded"; bgcolor="#e9ecef"; AudioFeat [label="音频特征", fillcolor="#91a7ff"]; VideoFeat [label="视觉特征\n(如:嘴唇形状、动作)", fillcolor="#91a7ff"]; } Fusion [label="信息融合\n(如:后期或早期)", shape=ellipse, style=filled, fillcolor="#38d9a9"]; ASR [label="改进的语音\n转录(文本输出)", shape=parallelogram, style=filled, fillcolor="#b2f2bb"]; Audio -> AudioFeat [label=" 处理"]; Video -> VideoFeat [label=" 处理"]; AudioFeat -> Fusion; VideoFeat -> Fusion; Fusion -> ASR [label=" 预测"]; }音视频语音识别系统的简化流程。音频和视觉数据首先被分别处理以提取特征,然后这些信息被组合(融合),以生成更准确的语音转录。为何要加入视觉信息?将视觉信息整合到语音识别系统中带来几项重要益处:在嘈杂环境中的准确性提高: 这通常是最受称赞的优势。来自嘴唇动作的视觉信息基本不受声学噪音影响。因此,即使音频信号被背景声音严重干扰,嘴唇的视觉信息仍能为ASR系统提供清晰数据。更强的适应性: AVSR系统对多种困难情况表现出更强的抵抗力。这包括音频质量的变化、不同的说话口音、多样的说话风格,甚至房间内的混响。声音的消歧: 视觉信息在帮助系统区分声学上相似且易混淆的声音方面非常有效,例如 /m/ 与 /n/,或 /b/ 与 /v/,尤其当音频质量不佳时。一些简单应用场景虽然底层技术涉及复杂的机器学习模型,但AVSR的应用相当直观,并能解决常见难题:在嘈杂环境中的听写: 想象一下,在繁忙的街角或拥挤的活动中,准确听写电子邮件或短信。更好的人机交互: 汽车中的语音助手(发动机和道路噪音普遍存在的地方),或公共信息亭中的语音助手,可以更可靠地理解用户指令。辅助技术: AVSR可用于构建旨在帮助听力障碍人士的系统,提供更全面的口语表示,实际上是一种自动化唇读形式。分析存档媒体: 改进旧视频资料中语音的清晰度和转录,这些资料的音频可能随时间退化或录制不佳。AVSR的这个介绍再次说明了多模态AI系统如何通过结合来自不同来源的信息来提升能力。通过处理声音和视觉,这些系统能比仅限于单一数据类型的系统更有效地执行语音识别等任务,展示了AI模仿并在某些方面增强人类感知能力的能力。