趋近智
Transformer架构最初在自然语言处理(NLP)中取得非凡成就,随后在计算机视觉中也表现出色,这激发了人们将其核心机制——自注意力——应用于图结构数据的兴趣。与序列数据(文本)或网格状数据(图像)不同,图具有不规则的结构,且缺少规范的节点排序。将Transformer适配到这一范畴带来了独特的挑战,但也提供了潜在的优势,特别是在捕获图中的远距离依赖关系方面。
标准Transformer处理序列时,每个元素的位置都是明确定义的。然而,图具有排列不变性(或对于节点级别任务具有等变性),这意味着数据表示中的节点排序不应影响输出。直接将标准Transformer应用于一组节点特征(将其视为无序集合或任意序列),将忽略图边中编码的重要关系信息。
图Transformer旨在将强大的自注意力机制与图数据的独特属性相结合。核心思想是让图中的每个节点都关注所有其他节点(或一个策略性选择的子集),学习衡量其他节点特征的重要性以更新自身的表示。
回顾标准缩放点积注意力:
注意力(Q,K,V)=softmax(dkQKT)V在图Transformer语境下,查询(Q)、键(K)和值(V)矩阵通常源自节点特征矩阵 H∈RN×d,其中 N 代表节点数量,d 代表特征维度。对于节点 i,其查询向量 qi 会关注所有其他节点 j 的键向量 kj(可能包括其自身)。节点 i 和节点 j 之间的注意力分数决定了节点 j 的值向量 vj 对节点 i 更新后的表示贡献了多少。
与图注意力网络(GATs)不同,GATs通常只计算节点直接邻居(由邻接矩阵 A 定义)的注意力分数,而“纯”图Transformer潜在地可以计算所有节点对的注意力。这种全局注意力允许单层中远距离节点之间直接传播信息,潜在地缓解了与依赖局部聚合的深度消息传递GNN相关的过平滑和过压缩问题。
注意力模式对比。局部注意力(左侧)考虑直接邻居,而全局注意力(右侧)潜在地允许一个节点(如 'f')直接关注所有其他节点,包括远距离节点(如 'k')。
一个重要的挑战是如何让Transformer架构感知图的拓扑结构。标准Transformer依赖位置编码来告知模型序列顺序。我们如何向图Transformer注入结构信息?出现了几种策略:
结构/位置编码: 类似于NLP中的位置编码,我们可以使用源自图结构的信息来增强节点特征。常见方法包括:
注意力偏差: 修改注意力分数计算,以明确地包含结构关系。例如,节点 i 和节点 j 之间的注意力分数可以根据它们的图距离或边特征进行修改:
分数(i,j)=dk(qiWQ)(kjWK)T+偏差(i,j)其中 偏差(i,j) 可以是基于 i 和 j 之间最短路径距离的学习嵌入,或者如果可用,基于边特征的学习嵌入。
混合架构: 结合消息传递层和Transformer层。消息传递层可以高效捕获局部结构,而Transformer层则可以在优化后的节点表示上建模全局交互。
全局自注意力机制的主要缺点是其计算复杂度。计算所有 N 个节点对之间的注意力分数每层需要 O(N2) 的计算和内存,这对于大型图而言是不可接受的。标准Transformer通常最多处理几千个标记的序列,而图可以轻松包含数百万或数十亿个节点。
为了解决这个问题,采用了几种技术:
图Transformer与传统消息传递GNN相比,提供一套不同的归纳偏置。
然而,对于由局部交互主导的任务或非常大型的图,优化后的空间GNN(如高级GraphSAGE变体或PNA)或可扩展GNN方法可能提供更好的性能和效率权衡。在消息传递GNN、GAT或图Transformer之间选择取决于具体问题、图的特性和可用的计算资源。随着研究的进展,结合不同方法优势的混合模型也变得越来越普遍。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造