趋近智
设想你正查看一幅繁忙的街道景象(一幅图像),有人问你:“红色的车在哪里?”(一段文本查询)。你的大脑并不会对图像中的每一个细节都给予同等重视。相反,你会自动聚焦于类似汽车的形状,然后专门寻找红色的,而大体上忽略行人、建筑物或蓝色的车,除非它们有助于你找到红色的车。这种选择性地集中于相关信息的能力,本质上就是注意力机制 (attention mechanism)赋予AI模型的功能。
在多模态 (multimodal)AI中,系统处理来自图像和文本等不同来源的数据时,并非所有输入部分对特定任务都同等重要。例如,如果模型要为图像生成描述,它在生成不同词语时需要关注图像中不同的物体或动作。或者,如果它正在回答关于图像的问题,它应该更关注图像中与问题相关联的部分。
从根本上说,注意力机制帮助模型决定应该更侧重输入数据的哪些部分。可以把它想象成给不同信息片段分配“重要性分数”或“权重 (weight)”。获得更高权重的数据部分对模型的输出影响更大。
例如,考虑我们之前讨论过的图像和文本特征向量 (vector), 和 。注意力机制可以学习到,对于特定任务, 中的某些元素与 中的某些元素高度相关,反之亦然,而不仅仅是盲目地组合它们。然后,它会增强这些相关连接,同时弱化不那么重要的连接。
假设AI的任务是判断产品图像是否与其文本描述相符。
注意力机制通常不是独立的算法,而是经常被纳入你学过的整合策略(早期、中间或后期)或表示学习方法中。它们增加了一层动态的、感知上下文 (context)的处理能力。
选择性整合:在组合来自不同模态的特征时,注意力机制可以在它们合并之前为这些特征分配权重 (weight)。例如,如果音频输入嘈杂,但视觉输入(如语音识别中的唇部动作)清晰,注意力可能会对某些语音的视觉特征给予更多权重。
跨模态引用:对于需要跨模态对齐 (alignment)或引用信息的任务,注意力机制尤其有效。
下图展示了注意力机制在为特定任务组合来自两种模态的信息时如何引导焦点的简化视图。
此图描绘了注意力机制如何接收来自模态A(例如图像)和模态B(例如文本)的特征。它接着计算并施加权重,从而产生这些特征的“注意力加权”版本。这些动态加权的特征随后为特定任务进行组合,以确保每种模态最相关的部分做出更重要的贡献。
将注意力机制纳入多模态 (multimodal)模型带来了多项益处:
尽管详细的数学原理和注意力机制的种类(如自注意力 (self-attention)或交叉注意力,你可能会在更高级的资料中遇到)超出了我们当前的范围,但其核心思想是:注意力帮助模型学习在它们处理的数据流内部和之间 查看何处 或 聆听什么。这种能力是构建更智能、感知上下文 (context)的AI系统的重要一步,尤其是在处理多方面多模态信息时。它使得本章前面讨论的整合技术,例如整合和学习共享表示,变得更有效和精细。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造