文章预览
来源:PaperWeekly 作者:吴迪 单位:UCLA 研究方向 :自然语言处理 前言 最近一年开始做知识增强语言模型的方向。暑假去到了 AWS AI 的 CodeWhisperer 组实习,在 repository-level code completion 这个任务上进行了一些相关研究,有了一些发现,也投中了一篇 ICML Oral,便把感悟写成此文,希望大家多批评指正。 背景 2.1 检索增强语言模型(Retrieval Augmented Language Models, RALMs) 一般来说,只要语言模型在推理阶段使用了外部知识,就可以被叫作检索增强语言模型。 https://acl2023-retrieval-lm.github.io/slides/3-architecture.pdf 上图截取自 ACL 2023 的 tutorial [1],我认为可以大致代表 NLP 社区对 RALM 最普遍的认识。可以看到这里的外部知识大多都是非结构化的知识,比如实体或者大段的文本。然而把知识提供给模型的方式和粒度是多种多样的,比如 kNN-LM [2] 是在最终预测的 token 层
………………………………