趋近智
Transformer架构最初在自然语言处理(NLP)中取得非凡成就,随后在计算机视觉中也表现出色,这激发了人们将其核心机制——自注意力 (self-attention)——应用于图结构数据的兴趣。与序列数据(文本)或网格状数据(图像)不同,图具有不规则的结构,且缺少规范的节点排序。将Transformer适配到这一范畴带来了独特的挑战,但也提供了潜在的优势,特别是在捕获图中的远距离依赖关系方面。
标准Transformer处理序列时,每个元素的位置都是明确定义的。然而,图具有排列不变性(或对于节点级别任务具有等变性),这意味着数据表示中的节点排序不应影响输出。直接将标准Transformer应用于一组节点特征(将其视为无序集合或任意序列),将忽略图边中编码的重要关系信息。
图Transformer旨在将强大的自注意力机制 (attention mechanism)与图数据的独特属性相结合。核心思想是让图中的每个节点都关注所有其他节点(或一个策略性选择的子集),学习衡量其他节点特征的重要性以更新自身的表示。
回顾标准缩放点积注意力:
在图Transformer语境下,查询()、键()和值()矩阵通常源自节点特征矩阵 ,其中 代表节点数量, 代表特征维度。对于节点 ,其查询向量 (vector) 会关注所有其他节点 的键向量 (可能包括其自身)。节点 和节点 之间的注意力分数决定了节点 的值向量 对节点 更新后的表示贡献了多少。
与图注意力网络(GATs)不同,GATs通常只计算节点直接邻居(由邻接矩阵 定义)的注意力分数,而“纯”图Transformer潜在地可以计算所有节点对的注意力。这种全局注意力允许单层中远距离节点之间直接传播信息,潜在地缓解了与依赖局部聚合的深度消息传递GNN相关的过平滑和过压缩问题。
注意力模式对比。局部注意力(左侧)考虑直接邻居,而全局注意力(右侧)潜在地允许一个节点(如 'f')直接关注所有其他节点,包括远距离节点(如 'k')。
一个重要的挑战是如何让Transformer架构感知图的拓扑结构。标准Transformer依赖位置编码 (positional encoding)来告知模型序列顺序。我们如何向图Transformer注入结构信息?出现了几种策略:
结构/位置编码: 类似于NLP中的位置编码,我们可以使用源自图结构的信息来增强节点特征。常见方法包括:
注意力偏差: 修改注意力分数计算,以明确地包含结构关系。例如,节点 和节点 之间的注意力分数可以根据它们的图距离或边特征进行修改:
其中 可以是基于 和 之间最短路径距离的学习嵌入 (embedding),或者如果可用,基于边特征的学习嵌入。
混合架构: 结合消息传递层和Transformer层。消息传递层可以高效捕获局部结构,而Transformer层则可以在优化后的节点表示上建模全局交互。
全局自注意力 (self-attention)机制 (attention mechanism)的主要缺点是其计算复杂度。计算所有 个节点对之间的注意力分数每层需要 的计算和内存,这对于大型图而言是不可接受的。标准Transformer通常最多处理几千个标记 (token)的序列,而图可以轻松包含数百万或数十亿个节点。
为了解决这个问题,采用了几种技术:
图Transformer与传统消息传递GNN相比,提供一套不同的归纳偏置 (bias)。
然而,对于由局部交互主导的任务或非常大型的图,优化后的空间GNN(如高级GraphSAGE变体或PNA)或可扩展GNN方法可能提供更好的性能和效率权衡。在消息传递GNN、GAT或图Transformer之间选择取决于具体问题、图的特性和可用的计算资源。随着研究的进展,结合不同方法优势的混合模型也变得越来越普遍。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•