堆叠多层图神经网络 (GNN) 看起来是增加模型能力和捕获更远距离关联的自然方式,但常常导致违反直觉的性能下降。这种现象被普遍称为过平滑。它指的是图中节点表示变得越来越相似,最终收敛到难以区分的值的趋势,当它们通过连续的GNN层时。机制理解从根本上讲,过平滑是许多GNN使用的标准消息传递机制的固有结果。回顾节点 $v$ 在第 $k+1$ 层的基本更新规则:$$ h_v^{(k+1)} = \sigma \left( \text{更新}^{(k)} \left( h_v^{(k)}, \text{聚合}^{(k)} \left( { h_u^{(k)} : u \in \mathcal{N}(v) } \right) \right) \right) $$聚合函数通常涉及某种形式的平均或加权和,这些和来自前一层邻居的特征 $h_u^{(k)}$。例如,在一个简化的图卷积网络 (GCN) 层中,聚合可以看作是将归一化邻接矩阵 $A_{norm}$(例如 $D^{-1/2}AD^{-1/2}$)应用于特征矩阵 $H^{(k)}$:$$ H^{(k+1)} = \sigma(A_{norm} H^{(k)} W^{(k)}) $$这种操作有效地将节点的特征与其邻居的特征进行平均。当这种平均过程在许多层($k \rightarrow \infty$)中重复时,同一连通分量内的节点特征趋于收敛。直观地说,每个传播步骤都会混合相邻节点的特征。经过 $k$ 步后,节点的表示受到远至 $k$ 跳节点的影响。随着 $k$ 的增加,每个节点的感受野扩展,可能覆盖其连通分量的大部分,甚至全部。这种重复的局部平均作用类似于图信号(节点特征)上的低通滤波器,平滑了节点之间的差异。考虑图上随机游走的类比。每个消息传递步骤都类似于随机游走中的一步。随着步数的增加,游走者位置的概率分布趋向于平稳分布,这种分布通常只取决于全局图属性(如节点度),而不是起始节点的独特特征。类似地,重复的聚合会洗去区分一个节点与另一个节点的特定局部邻域信息。对学习的影响过平滑的主要后果是节点表示辨别能力的丧失。如果同一连通分量内的所有节点在经过几层后具有几乎相同的嵌入,GNN就难以执行依赖于区分这些节点的任务,例如节点分类或链接预测。性能下降: 深度GNN在许多基准数据集上的表现可能不如浅层GNN(例如2-3层)。增加更多层会带来收益递减,甚至会损害准确性。局部信息丢失: 虽然更深层旨在捕获全局结构,但过平滑导致它们丢失了许多图任务所需的精细局部结构信息。难以区分的嵌入: 如果图中的节点在结构上接近,属于不同类别的节点最终可能具有非常相似的嵌入,这使得分类变得困难。让我们来说明这种收敛。想象一个小型图,其中节点最初具有不同的特征(用颜色表示)。graph G { layout=neato; node [style=filled, shape=circle, fixedsize=true, width=0.6]; // 初始层 (k=0) - 不同的特征 subgraph cluster_0 { label = "第 k=0 层 (初始特征)"; bgcolor="#e9ecef"; node [colorscheme=set1]; a0 [label="", fillcolor=1, pos="0,1!"]; b0 [label="", fillcolor=2, pos="1,1!"]; c0 [label="", fillcolor=3, pos="2,1!"]; d0 [label="", fillcolor=4, pos="1,0!"]; a0 -- b0; b0 -- c0; a0 -- d0; b0 -- d0; c0 -- d0; } // 多层之后 (k -> 大) - 平滑的特征 subgraph cluster_1 { label = "第 k=L 层 (过平滑)"; bgcolor="#e9ecef"; node [fillcolor="#adb5bd"]; // 收敛后的颜色 aL [label="", pos="4,1!"]; bL [label="", pos="5,1!"]; cL [label="", pos="6,1!"]; dL [label="", pos="5,0!"]; aL -- bL; bL -- cL; aL -- dL; bL -- dL; cL -- dL; } }最初不同的节点特征(颜色)在许多消息传递层之后变得同质化,这是由于重复的邻域平均。这种同质化意味着网络有效地失去了利用初始层中编码的节点特有或局部结构信息的能力。虽然扩大感受野是期望的,但过平滑阻止模型有效利用从远处节点收集的信息,同时又不丢失局部上下文。了解这种现象对于设计有效的深度GNN架构和训练策略非常重要。本章后面讨论的技术,例如残差连接、跳跃知识或注意力机制,专门设计用于对抗这种过度平滑,并允许构建更深、更具表现力的GNN模型。