深层图神经网络(GNN)中的过度平滑现象表现为节点特征的同质化。与此相关但又有所不同的是,过度挤压是一个挑战,它指的是当图结构造成信息瓶颈时,信息在距离远的节点之间难以传播。可以将其理解为:信息因路径受限而在传输过程中停滞,而非仅仅是特征变得模糊。这个问题出现是因为标准消息传递GNN在每个层级都会汇聚来自邻居的信息。节点 $v$ 在层 $k$ 的表示 $h_v^{(k)}$ 是根据其自身特征 $h_v^{(k-1)}$ 和其邻居 $u \in \mathcal{N}(v)$ 的特征 $h_u^{(k-1)}$ 计算的。为了获取距 $L$ 跳远节点的信息,我们至少需要 $L$ 个消息传递层。导致过度挤压的主要问题是,在一个 $L$ 跳邻域内的节点数量可以随 $L$ 呈指数增长,特别是在某些图结构(如树或扩展图)中。然而,GNN必须将这个可能非常大的邻域中的所有所需信息压缩到一个固定大小的节点嵌入向量 $h_v^{(L)}$ 中。当图结构包含瓶颈时,这意味着连接大片图区域的路径相对较少,这种压缩会造成信息损失。来自瓶颈“另一边”节点的信息被“挤压”到通过瓶颈的嵌入向量的有限容量中,这有效阻止了距离远的节点对其彼此的表示产生明显影响。理解瓶颈效应设想两个大型、连接紧密的节点群落,它们仅通过少数几条边连接。graph G { node [shape=circle, style=filled, fontsize=10]; A1 [fillcolor="#74c0fc"]; A2 [fillcolor="#74c0fc"]; A3 [fillcolor="#74c0fc"]; A4 [fillcolor="#74c0fc"]; B1 [fillcolor="#69db7c"]; B2 [fillcolor="#69db7c"]; B3 [fillcolor="#69db7c"]; B4 [fillcolor="#69db7c"]; A1 -- A2; A2 -- A3; A3 -- A4; A4 -- A1; A1 -- A3; A2 -- A4; B1 -- B2; B2 -- B3; B3 -- B4; B4 -- B1; B1 -- B3; B2 -- B4; A1 -- B1 [penwidth=2.5, color="#f03e3e"]; }一个包含两个密集社群(蓝色和绿色节点)的图,由一条单独的瓶颈边(红色)连接。在不同社群节点之间(例如,从B2到A3)传递的信息受到此瓶颈的限制。如果GNN需要将信息从绿色社群的一个节点传播到蓝色社群的一个节点,所有相关信号都必须通过有限数量的连接(在此图中,仅是A1和B1之间的单条边)。每个消息传递步骤都涉及汇聚和变换,而这个瓶颈强制进行激进的压缩,使得信息在社群之间流动。因此,节点的影响力会迅速减弱,跨越这些瓶颈。从数学上看,过度挤压与GNN变换的雅可比矩阵的特性有关。设 $f_{\text{GNN}}$ 代表GNN层计算的函数,它将初始节点特征 $X$ 映射到最终嵌入 $H^{(L)}$。过度挤压意味着节点 $v$ 的最终嵌入 $h_v^{(L)}$ 对距离远的节点 $u$ 的初始特征 $x_u$ 的偏导数变得极其微小:$$ \left| \frac{\partial h_v^{(L)}}{\partial x_u} \right| \approx 0 \quad \text{当 } d(u, v) \text{ 很大且它们被瓶颈分离时} $$这里,$d(u, v)$ 是最短路径距离。这意味着节点 $u$ 特征的变化几乎不对节点 $v$ 的最终表示产生影响,这妨碍了GNN学习跨结构瓶颈的长距离依赖关系的能力。这种现象在具有高曲率或树状结构的图中尤为明显,在这些图中,节点间的路径不会明显分叉。过度挤压的影响长距离依赖学习不佳: GNN难以捕获被瓶颈分离的节点之间的关系,这限制了需要全局图理解的任务的性能。感受野受限: 尽管理论上能够通过足够的层级到达距离远的节点,但实际感受野受到这些结构瓶颈的限制,阻止了有意义的信息流动。任务性能下降: 预测分子性质(其中距离远的原子会影响功能)或社交网络中特定类型的节点分类等任务可能受到严重影响。区分过度挤压和过度平滑区分过度挤压和过度平滑很重要:过度平滑: 随着层数的增加,节点表示变得过于相似(难以区分),丢失节点特有信息。这主要与网络深度和重复的平均/汇聚有关。过度挤压: 由于图中的结构瓶颈,节点表示未能捕获距离远节点的影响,无论特征相似度如何,都限制了信息流动。这主要与图结构和固定嵌入大小有关。尽管不同,这两个问题都限制了标准消息传递GNN有效使用图中远处区域信息的能力,尤其是在深层模型或结构复杂的图中。处理过度挤压通常需要架构调整或扩展简单消息传递的技术,例如图重布线、位置编码,或采用像图Transformer这样的架构,它们能更直接地表示长距离交互,这些是我们在课程后面会谈到的主题。针对过度平滑讨论的技术,例如残差连接,可能无法直接解决过度挤压中固有的信息瓶颈问题。