趋近智
知识图谱(KG)以相互关联的实体和关系形式存储事实信息,常构成大型且复杂的图结构。例子有维基数据、Freebase,或生物学、金融等专业图。这些图常常是异构的,包含多种节点(实体)和边(关系)类型,这对其分析提出了具体的挑战。对这类结构化知识进行表示和推理,对问答、推荐系统和数据整合等任务而言非常重要。
知识图谱嵌入(KGE)技术旨在为知识图谱中的实体和关系学习低维向量表示(嵌入)。传统方法如TransE、DistMult和ComplEx,主要侧重于对单个三元组(头实体、关系、尾实体)内的关系进行建模,常表示为 (h,r,t)。尽管这些方法有效,但它们通常独立处理三元组,可能无法完整表达更宽广的图结构或涉及多跳的复杂关系模式。
图神经网络通过直接借助知识图谱的图结构,提供了一种强大的替代方案。GNN不再孤立地处理三元组,而是通过聚合其局部邻域的信息,并考虑连接它们的特定关系,来学习实体表示。
主要思路是将实体视为节点,关系则可能视为GNN框架中的边类型或转换。这自然使得GNN能够将信息在图上传播,获取多跳关系路径以及实体间的结构相似性。
关系图卷积网络(R-GCN)是专为知识图谱设计的最知名的GNN架构之一。R-GCN调整了GCN框架,以处理知识图谱固有的异构性,特别是多种关系类型。
在标准GCN中,消息聚合通常使用一个共享的权重矩阵。而在知识图谱中,邻居的意义很大程度上取决于连接它的关系。R-GCN通过引入关系特定的转换来处理这个问题。节点(实体)u 在第 l+1 层的消息传递更新可以表示为:
hu(l+1)=σr∈R∑v∈Nr(u)∑cu,r1Wr(l)hv(l)+W0(l)hu(l)这里:
R-GCN的主要改进点在于对每种关系类型使用不同的 Wr(l) 矩阵。这使得GNN能够学习关系特定的消息转换,获取知识图谱中关系的不同语义。为了管理可能大量存在的各种关系,R-GCN常采用基分解或块对角分解技术,以正则化并减少与关系矩阵相关的参数数量。
'Alice'实体R-GCN消息传递示意图。来自邻居('OrgX','Bob')的消息在聚合前,使用关系特定权重('works_at'对应 Wr1,'friend_of'对应 Wr2)进行转换。其中也包含一个自连接转换(W0)。
其他GNN架构已针对知识图谱进行调整或开发:
知识图谱嵌入(包括由GNN生成的嵌入)的主要下游任务是链接预测。目标是预测知识图谱中缺失的链接(三元组)。给定一个不完整的三元组,如 (h,r,?)(预测尾实体)或 (?,r,t)(预测头实体),模型应识别出最有可能的实体来补全该三元组。
有了GNN生成的实体嵌入 (hu) 和可能学习到的关系嵌入 (hr),便可使用评分函数 f(hh,hr,ht) 来衡量三元组 (h,r,t) 的合理性。常用评分函数有:
在链接预测的训练过程中,GNN模型和评分函数参数一同进行优化。通常,这包括最大化已知正向三元组的得分,同时最小化损坏或负向三元组的得分(即头实体或尾实体被随机实体替换的情况)。
PyTorch Geometric (PyG) 和 Deep Graph Library (DGL) 等库为异构图提供了专门支持,包括R-GCN层的有效实现以及处理不同节点和边类型的机制。这极大地简化了知识图谱GNN模型的构建。
然而,知识图谱可能规模庞大,包含数百万实体和数十亿三元组。由于规模原因,直接应用GNN在计算上可能面临挑战。第3章讨论的技术,例如邻域采样(GraphSAGE风格)、图采样(GraphSAINT)或子图训练(Cluster-GCN),通常对于在大规模知识图谱上良好地训练GNN是必要的。在链接预测训练中,仔细考量负采样策略对于性能和效率也同样重要。
使用GNN进行知识图谱嵌入提供了一些优势:
潜在考量包括:
总而言之,GNN提供了一个灵活且强大的框架,用于从知识图谱中学习富有表现力的表示。通过将图结构直接集成到嵌入过程中,特别是通过R-GCN等模型,它们可以获取复杂的关系模式,这对链接预测等任务十分重要,从而提升了基于知识的系统的能力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造