专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

利用公开知识定向提升大模型,腾讯优图&上交大提出新方法,性能达SOTA

量子位  · 公众号  · AI  · 2024-09-28 13:19

主要观点总结

上海交通大学和腾讯优图实验室共同提出了一种新型开源增强知识框架,能够从公开数据中自动提取相关知识,提高任务性能。该方法针对LLMs在实际业务场景中的特定任务性能提升,通过K-shot数据筛选模型和数据集,并利用混合专家模型结构实现模型融合。实验结果表明,该方法在各项任务上均取得了更好的性能。

关键观点总结

关键观点1: 研究背景

近年来,LLMs在众多任务和领域取得了显著发展,但在实际业务场景中,为了发挥模型的专业能力,通常需要在领域特定或任务特定的数据上进行指令微调。传统的指令微调需要大量有标注数据和计算资源,这对于实际业务场景是很难获得的。另一方面,开源社区提供了大量的微调模型和指令数据集,使得在特定任务上LLM在特定领域上的适配和应用成为了可能,但仍然存在关键问题需要解决。

关键观点2: 主要贡献

提出了一种结合公开可用模型和数据集,针对特定任务提升大型语言模型性能的方法全流程。包括提出高效筛选具有最大潜力的模型的方法,设计从开源数据集中提取与感兴趣任务或领域相关知识的方法,以及构建自适应的模型融合系统。

关键观点3: 方法流程

包括筛选有潜力的模型、从开源数据集中提取与任务相关的知识、构建混合专家模型结构、进行模型融合等步骤。其中提出了K-shot Guided Expert Model Selection、Mixture-of-Experts Initialization、K-shot Guided Sim-Div Data Selection和Mixture-of-Experts Fine-Tuning等方法。

关键观点4: 实验结果与分析

实验结果表明,该方法在各项任务上均取得了更好的性能。通过可视化专家的激活模式,发现MoE系统没有等效地坍缩为单个模型,每个专家都对整体有贡献。在模型选择和数据选择的消融研究中,验证了该方法的有效性。

关键观点5: 结论

本文提出的方法通过K-shot数据在模型选择和数据扩增中发挥重要作用,优于现有方法,并通过消融研究验证了选择方法的有效性,展示了一种挖掘开放知识进行定制技能整合的高效流程。


文章预览

优图实验室 投稿 量子位 | 公众号 QbitAI 告别传统指令微调,大模型特定任务性能提升有新方法了。 一种新型开源增强知识框架,可以从公开数据中自动提取相关知识,针对性提升任务性能。 与基线和SOTA方法对比,本文方法在各项任务上均取得了更好的性能。 该方法由上海交通大学和腾讯优图实验室共同提出。 研究背景 近年来,LLMs 在众多任务和领域取得了显著发展,但为了 在实际业务场景 发挥模型的专业能力,通常需要在领域特定或任务特定的数据上进行指令微调。传统的指令微调往往需要大量的有标注数据和计算资源,对于实际业务场景这是很难获得的。 另一方面, 开源社区提供了大量的微调模型和指令数据集 。这些开源知识的存在使得在特定任务上LLM在特定领域上的适配和应用成为了可能。但是,使用开源的各类SFT模型以及任务相关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览