文章预览
笔记整理:郭凌冰,浙江大学博士,研究方向为知识图谱 链接:https://arxiv.org/abs/2306.12725 1. 动机 多模态实体链接( Multimodal Entity Linking , MEL )旨在将带有多模态上下文的提及映射到知识库(如维基百科)中的参考实体。现有的 MEL 方法主要侧重于设计复杂的多模态交互机制,并需要对所有模型参数进行微调,这在大型语言模型( LLM )时代可能成本过高且难以扩展。在本文中,作者提出了一种简单而有效的基于 LLM 的生成式多模态实体链接框架( Generative Multimodal Entity Linking framework based on LLMs ),称为 GEMEL ,该框架直接生成目标实体名称。 G EMEL 将视觉和语言模型固定,仅训练一个特征映射器以实现跨模态交互。该方法与任何现成的语言模型兼容,为在 MEL 任务中利用 LLM 的高效和通用解决方案铺平了道路。 2. 贡献 本文的主要贡献有: (1)作者
………………………………