今天看啥  ›  专栏  ›  北邮 GAMMA Lab

KDD 24 | 基于特权结构识别的分子不变学习

北邮 GAMMA Lab  · 公众号  · 科技自媒体  · 2024-07-15 09:04
    

主要观点总结

本文提出了一个名为MILI的新框架,通过特权子结构识别来推进分子不变学习。为了解决分子在分布外场景中的泛化问题,该框架整合领域知识,基于特权子结构识别形式化分子不变学习,并引入子结构不变约束(SIC)。为满足环境划分准则,设计了一个双头图神经网络。在多个数据集上的实验验证了所提MILI的有效性。

关键观点总结

关键观点1: 解决分子在分布外场景中的泛化问题

分子在真实场景中的环境变化和分布偏移会导致现有基于图神经网络(GNN)的分子表示学习方法性能显著下降。本文提出的MILI框架通过整合领域知识和环境划分准则,提高了分子表示学习的泛化能力。

关键观点2: 整合领域知识

领域知识在分子表示学习中至关重要。特权子结构是决定分子活性的核心官能团。MILI框架通过识别特权子结构,将领域知识融入分子不变学习中,从而提高模型的泛化能力。

关键观点3: 环境划分准则

环境划分是分子不变学习的关键。本文提出了两个环境划分准则,以确保环境划分与分子不变学习相互增强。这些准则指导了双头图神经网络的设计,使环境划分最大程度地违反子结构不变约束,并保持类分布公平性。

关键观点4: 双头图神经网络的设计

为满足环境划分准则,本文设计了双头图神经网络。该网络包括特权子结构识别器、任务头和环境头。其中,共享识别器负责识别特权子结构,任务头和环境头则利用特权子结构和可变结构进行下游预测。

关键观点5: 实验验证

在多个基准数据集上的实验结果表明,MILI框架在分子表示学习方面显著提高了泛化能力。与其他基线方法相比,MILI在OOD泛化任务上取得了更好的性能。此外,通过实例分析,展示了MILI在识别特权子结构方面的优秀能力。


文章预览

题目 :Advancing Molecule Invariant Representation via Privileged Substructure Identification 会议 :KDD 2024 图神经网络通过将分子建模为图,即视原子为节点,化学键为边,革新了分子表示学习。尽管取得了一定突破,它们在分布外场景中仍面临挑战。例如,具有相同性质的分子在大小或骨架变化时,可能给出错误的预测结果。一些研究尝试利用图不变学习来缓解该问题,即通过惩罚不同环境下的预测差异来学习不变表示。然而,分子有其特殊的领域知识: 形成特权子结构的核心官能团主导了分子的性质,并在分布变化中保持不变 。因此,怎样融合这一先验知识?并确保其与传统图不变学习兼容? 1. 背景 分子作为物质的基本组成部分,在科学探索和药物发现中发挥着关键作用。为此,分子表示学习(Molecule Representation Learning,MRL)成为一个重要的研究领域,即将 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览