趋近智
过平滑问题在图神经网络(GNN)中产生,当堆叠多层时,会导致节点表示变得越来越相似并失去其区分能力。这种现象与许多GNN消息传递机制中固有的图拉普拉斯平滑的重复应用密切相关。幸运的是,已发展出多种方法来抵消这种影响,从而能够构建具有更大深度且可能更具表现力的GNN模型。
本节考察缓解过平滑的实用方法,包括架构调整、聚合过程的修改以及特定的训练策略。
一个有效的方法是修改GNN架构本身,以保留来自早期层的信息或控制信息流。
受其在深度卷积神经网络(CNN)中成功的启发,残差(或跳跃)连接提供了一种简单而有效的机制来对抗过平滑。其核心是:在激活函数之前,将层的输入表示H(l)加到其输出上。
对于执行聚合和更新的通用GNN层,操作变为:
H(l+1)=σ(UPDATE(l)(H(l),AGGREGATE(l)({Hu(l):u∈N(v)∪{v}}))+H(l))或者,在一个更简单的类GCN公式中,其中更新与聚合和线性变换W(l)结合:
H(l+1)=σ(A~H(l)W(l)+H(l))其中 A~ 表示归一化邻接矩阵(或类似的聚合机制)。
通过添加前一层的表示H(l),网络始终可以选择保留原始特征,必要时有效绕过当前层的平滑操作。这确保了即使在深层网络中,来自初始节点特征或早期层的信息也不会被完全抹去。残差连接适用性广,常用于ResGCN等架构中。
一张图,说明了GNN层中的残差连接。输入H(l)与主GNN变换的输出一起直接送入加法操作。
跳跃知识(JK)网络通过允许最终层(或中间层)选择性地访问所有先前层的表示来解决过平滑问题。JK网络不是简单地按顺序传递信息,而是在进行最终预测或将信息传递到下一个块之前,为每个节点聚合来自不同邻域深度(不同层)的特征。
其核心是:将节点 v 在所有 L 层中的输出 H(1),H(2),...,H(L) 组合起来,形成最终表示 Hv(final):
Hv(final)=AGGREGATEJK(Hv(1),Hv(2),...,Hv(L))常见的聚合函数(AGGREGATEJK)包括:
通过结合浅层表示(保留局部性)和深层表示(捕获更广结构),JK网络使模型能够学习每个节点的最佳邻域范围,从而缓解固定深度传播的负面影响。
像DeeperGCN这样的架构明确目标是构建非常深的图网络。它们通常结合残差连接与其他技术,例如密集连接(类似于DenseNets)、归一化层(BatchNorm、LayerNorm)以及不同的聚合函数(例如,使用Softmax聚合而不是均值/和),以促进稳定训练并防止拥有数十甚至数百层网络中的过平滑。这些代表了一种更全面的架构方法来管理深度GNN中的信息流。
改变宏观架构,调整核心消息传递机制也能有所帮助。
正如第2章所详述,图注意力网络(GAT)使用自注意力在聚合过程中衡量邻居节点的贡献。GAT中的聚合步骤如下:
hi′=σj∈N(i)∪{i}∑αijWhj其中 αij 是根据节点 i 和 j 的特征动态计算的注意力系数。
与GCN中固定的平均系数(didj1)不同,学习到的注意力权重αij使模型能够优先考虑更重要的邻居,并可能降低对可能导致过度平滑的邻居的权重。尽管这不是一个保证的解决方案(注意力权重可能收敛到一致),但注意力提供的灵活性通常有助于与简单的平均或求和聚合相比,更好地保持特征多样性,特别是在与多头注意力结合时。
标准归一化技术,如BatchNorm或LayerNorm,应用于GNN层内的线性变换或聚合之后,可以稳定节点嵌入的分布。尽管并非直接为过平滑设计,但通过防止特征值坍塌或爆炸,它们可以间接减缓表示收敛到单个点的速度。此外,还提出了GraphNorm或PairNorm等更专业的技法,专门针对图结构和过平滑背景下的归一化。
在训练过程中引入随机性或特定归一化也会有所帮助。
应用dropout是深度学习中常见的正则化技术。在GNN中,dropout可以通过几种方式应用:
通过在邻域聚合过程中引入随机性,这些dropout变体可以防止模型过度依赖任何特定节点或边,促使更多表示并阻碍快速收敛到均匀状态。
GNN层间平均特征方差的衰减。残差连接或JK网络等技术旨在减缓这种衰减,从而在更深的层中保持特征多样性。
不同的技术提供了各种权衡:
实践中,这些技术常被结合使用。例如,一个深度GNN可能会采用残差连接、层归一化以及可能的边丢弃,以实现稳定训练并有效缓解过平滑。选择取决于具体的架构、数据集特性以及所需网络深度。理解这些选择提供了一套工具,用于构建更强大、更深的GNN模型,这些模型能够学习复杂的图模式,而不会陷入过平滑问题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造