专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ACL 2024 | Parrot(鹦鹉):增强大语言模型在多轮对话中的指令跟随能力

PaperWeekly  · 公众号  · 科研  · 2024-07-20 23:23

主要观点总结

本文介绍了快手「快意」大模型团队和中国人民大学合作在多轮指令跟随模型训练、数据合成以及评测上的系统工作Parrot。针对LLM(大语言模型)在现实世界应用中遇到的多轮次对话挑战,Parrot提出了上下文感知的偏好优化策略(CaPO),并基于训练提问模型收集多轮指令微调数据,提升了LLM处理复杂多轮交互的能力。该研究被自然语言处理顶级会议ACL 2024录用为主会论文。

关键观点总结

关键观点1: 研究背景

多数开源的大语言模型(LLM)在单轮交互中表现良好,但在多轮对话中,模型需要理解连续指令并遵循上下文关系,这是现有研究和评测基准忽略的方面,导致实际应用中模型效果不理想。

关键观点2: 主要工作

Parrot模型旨在增强LLM在多轮交互中遵循指令的能力。作者通过训练Parrot-Ask模型生成多轮指令序列,模拟真实用户的多轮对话。同时,提出上下文感知偏好优化策略(CaPO)增强模型利用对话上下文信息的能力。

关键观点3: 数据集和评测方法

作者通过Parrot-Ask模型收集Parrot-40K数据集,包含真实用户的提问风格。同时扩展了MT-Bench评测集形成MT-Bench++,以更好地评价LLM的多轮交互能力。

关键观点4: 实验结果

Parrot-Chat模型在MT-Bench和MT-Bench++上的表现显著优于其他模型,证明了Parrot方法的有效性。消融实验表明,Parrot-Ask收集的数据、CaPO策略和更多轮次的交互均对性能提升有贡献。

关键观点5: 投稿通道

PaperWeekly鼓励分享原创学术内容,包括最新论文解读、学术热点剖析等。个人或团队可以通过投稿邮箱hr@paperweekly.site或添加小编微信pwbot02进行投稿。


文章预览

多轮对话是大语言模型与人类互动的主要方式,广泛应用于消费娱乐、生产力工具和创意生成等场景。然而,构建多轮对话能力所需的训练数据人工标注成本高,且难以控制质量和多样性。因此,如何增强大模型的多轮交互能力,一直是业界一项重大技术挑战,其对于大模型研发和落地应用的重要价值不言而喻。 本文介绍了快手「快意」大模型团队和中国人民大学合作,在多轮指令跟随模型训练、数据合成以及评测上所做的系统工作 Parrot(鹦鹉)。Parrot 提出上下文感知的偏好优化策略,引入提问模型构建高质量的多轮指令跟随数据,从而提升大模型多轮指令跟随能力。 在相同配置下,Parrot 使用了约 40k 的训练数据(约为基线模型 Vicuna v1.5 的 32%),但相较于基线模型实现了约 7% 的绝对性能提升。该工作于近期被自然语言处理顶级会议 ACL 2024 录 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览