趋近智
利用图数据结构进行机器学习 (machine learning)为预测任务提供了独特的契机。这涉及到调整常见的机器学习方法,以利用图的结构特征。我们旨在解决的问题通常分为三个主要类别,其区别在于预测层面:节点级、边级或整个图级。
图机器学习 (machine learning)中最常见的任务是节点分类。其目标是预测图中每个节点的属性或标签。你可以将其理解为补全整个网络中缺失的信息。对于这项任务,通常会给定一个图,其中一部分节点已经带有标签。模型的任务是利用节点特征和图结构来预测剩余未标记 (token)节点的标签。
这通常是一个半监督学习问题,因为我们利用已标记节点和未标记节点之间的连接来传递信息并做出预测。
一个经典的例子是引用网络中的文档分类。想象一个图,其中的节点是研究论文,如果一篇论文引用了另一篇,则存在一条边。已知少数论文标有其学科(例如“物理”、“计算机科学”、“生物”),任务是为网络中其余的论文分类。模型会学习到,相互引用或被相似论文引用的论文很可能属于同一学科。
简单网络中的节点分类任务。模型必须根据中心灰色节点的特征及其与已标记的蓝色和红色节点的连接来预测其标签。
其他应用包括:
另一个基础任务是链路预测,它侧重于节点之间的关系。其目标是预测两个节点之间是否缺失了原本应该存在的边。它解决的是这样的问题:“给定两个节点,它们连接的可能性有多大?”
这个问题通过将现有边视为正例,将一部分不存在的边视为负例来构建。随后,模型学习一个函数,为节点对的连接可能性进行打分。
链路预测的一个常见应用是推荐系统。
链路预测旨在确定两个节点(如节点 B 和 D)之间是否应存在边,这两个节点目前属于不同的社区,但共享一个共同的邻居 G。
这项技术在生物学中也很有用,用于预测未发现的蛋白质相互作用,或在交通运输中识别地点之间未来的高流量路线。
最后,有些问题要求我们对整个图做出预测。在图分类中,任务是为整个图分配一个标签。这类似于图像分类,但我们分类的不是像素网格,而是由节点和边构成的网络。
这项任务常见于数据集由许多独立的小型图(而非单个大图)组成的场景。模型必须学会从整个图中提取结构和基于特征的信息,将其聚合成固定大小的表示,然后将该表示传递给分类器。
一个突出的应用是在化学和药物研发中。分子可以表示为图,其中原子是节点,化学键是边。可以训练图分类模型来预测分子的性质,如毒性、溶解度,或者它是否能成为针对特定疾病的有效药物。
在图分类中,模型学习为整个图分配标签。例如,区分分子结构以预测其性质。
其他应用包括:
这三类任务为在结构化数据上应用机器学习 (machine learning)提供了框架。下表总结了它们的目标和输出。
| 任务 | 层面 | 目标 | 输出示例 |
|---|---|---|---|
| 节点分类 | 节点 | 为每个节点预测一个标签 | 研究论文的类别 |
| 链路预测 | 边 (链路) | 预测边的存在性 | “好友建议”二元标记 (token)(是/否) |
| 图分类 | 图 | 为整个图预测一个标签 | 分子的毒性 |
虽然还存在社区检测和图回归等其他任务,但这三者构成了大多数 GNN 应用的基石。在本课程中,我们将重点构建节点分类模型,因为它为理解图神经网络 (neural network)的运行机制提供了极佳的基础。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•