专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

腾讯AI Lab技术报告:一种以10亿人物角色驱动的新颖数据构造方法

PaperAgent  · 公众号  ·  · 2024-07-01 18:55

文章预览

大规模创建合成数据并非易事,尤其是确保数据的多样性。以往的研究尝试通过 实例驱动或关键点驱动 的方法来增加数据的多样性,但这些方法在可扩展性上存在限制。 为了解决这些问题,提出了一种新颖的 人物角色(Personas)驱动的数据合成方法 ,利用大型语言模型(LLM)中的多种视角来创建多样化的合成数据。 人物角色可以与广泛的数据合成提示 (例如,创建一个数学问题或用户提示)一起工作,以指导大型语言模型(LLM)合成具有相应视角的数据。人物角色中心中的 10亿个人物角色 可以促进在十亿规模上为各种数据合成场景创建合成数据。 “人物角色库”(Persona Hub): 一个从网络数据自动策划的包含10亿个不同人格的集合。这些人格作为世界知识的分布式载体,可以深入LLM中的几乎所有视角,从而促进大规模创建多样化的合成数据。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览