文章预览
信息抽取(Information Extraction, IE)是自然语言处理的核心领域之一,专注于从普通文本中识别结构化信息,例如命名实体和关系。它在下游应用中至关重要,包括问答系统、知识图谱构建、推理以及信息检索。然而,传统的信息抽取框架通常是在独立同分布(i.i.d.)数据假设下进行训练,在现实场景中由于领域差异(例如文本类型和实体类别的变化)导致性能显著下降。此外,在所有领域收集数据既昂贵又不切实际,从而导致数据稀缺问题。本文旨在通过探索以下三个主题来解决这些挑战,从而构建可泛化的信息抽取框架:(i) 将信息抽取模型从数据丰富的领域迁移到标注稀疏的领域;(ii) 将信息抽取模型适配到新的、未见过的领域;(iii) 在完全零样本的情况下实现信息抽取模型的泛化。 具体而言,我们首先开发了适用于真实场景跨领域迁移的可适
………………………………