主要观点总结
本文提出一种新的知识图谱(KG)错误检测模型,旨在从文本和图形结构信息中检测噪声模式。模型包括特征提取、文本编码器、结构编码器、重构分类器、交互式对比学习和知识融合等多个部分。实验表明,该模型在FB15K-237和WN18RR数据集上优于基线模型,特别是在语义相似噪声和对抗性噪声上表现良好。
关键观点总结
关键观点1: 主要贡献
提出了一种端到端的KG错误检测模型,通过重构三元组充分利用了文本信息和结构信息,并减轻了噪声的干扰。设计了交互式对比学习,以对齐文本和结构信息的潜在表示。构建了两种噪声,语义相似噪声和对抗噪声,以评估模型在更现实的场景中的性能。
关键观点2: 方法
文中提出了一种新的KG误差检测模型CCA,利用三元组的重建从文本和图形结构的角度来理解噪声模式。特征提取包括文本编码器和结构编码器。重构分类器使用文本编码器和结构编码器分别重构三元组中的头实体和尾实体。交互式对比学习使用文本编码器和结构编码器的输出作为对比学习的输入。知识融合将重构和对比学习的输出结合起来生成伪标签,作为三元组置信度。
关键观点3: 实验结果
CCA在FB15K-237和WN18RR数据集上的性能优于基线模型。得益于PLM,文本模型在两个数据集上的表现优于结构模型。CCA与KG-BERT在WN18RR上的性能差距小于FB15K-237,因为WN18RR更稀疏。消融实验表明,文本重构对CCA的贡献最大。
文章预览
笔记整理:曲晏林,天津大学硕士,研究方向为大模型 论文链接:https://arxiv.org/abs/2312.12108?context=cs.AI 发表会议:AAAI 2024 1. 动机 知识图谱 (Knowledge Group, KG) 由三元组 ( 头部实体、关系、尾部实体 ) 组成,广泛应用于下游任务,如问答和推荐系统。现有的 KG 如 NELL 和 Knowledge Vault 以自动方式连续提取三元组,这不可避免地引入了噪声。检测这些错误有可能提高 KG 的质量。 现有的 KG 误差检测工作可分为基于嵌入模型和基于路径模型。前者根据实体和关系的表示学习置信度分数。后者使用实体之间的路径来评估三元组的置信度。不同于链接预测的任务或三元组分类,错误检测侧重于检测整个无监督 KG 中的错误三元组,旨在捕获三元组的方差并准确估计其置信度。 目前的 KG 误差检测模型面临着巨大的挑战,因为噪声模式不可用,难以获得准确标记的噪
………………………………