专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

利用公开知识定向提升大模型，腾讯优图&上交大提出新方法，性能达SOTA

量子位 · 公众号 · AI · 2024-09-28 13:19

主要观点总结

上海交通大学和腾讯优图实验室共同提出了一种新型开源增强知识框架，能够从公开数据中自动提取相关知识，提高任务性能。该方法针对LLMs在实际业务场景中的特定任务性能提升，通过K-shot数据筛选模型和数据集，并利用混合专家模型结构实现模型融合。实验结果表明，该方法在各项任务上均取得了更好的性能。

关键观点总结

关键观点1: 研究背景

近年来，LLMs在众多任务和领域取得了显著发展，但在实际业务场景中，为了发挥模型的专业能力，通常需要在领域特定或任务特定的数据上进行指令微调。传统的指令微调需要大量有标注数据和计算资源，这对于实际业务场景是很难获得的。另一方面，开源社区提供了大量的微调模型和指令数据集，使得在特定任务上LLM在特定领域上的适配和应用成为了可能，但仍然存在关键问题需要解决。

关键观点2: 主要贡献

提出了一种结合公开可用模型和数据集，针对特定任务提升大型语言模型性能的方法全流程。包括提出高效筛选具有最大潜力的模型的方法，设计从开源数据集中提取与感兴趣任务或领域相关知识的方法，以及构建自适应的模型融合系统。

关键观点3: 方法流程

包括筛选有潜力的模型、从开源数据集中提取与任务相关的知识、构建混合专家模型结构、进行模型融合等步骤。其中提出了K-shot Guided Expert Model Selection、Mixture-of-Experts Initialization、K-shot Guided Sim-Div Data Selection和Mixture-of-Experts Fine-Tuning等方法。

关键观点4: 实验结果与分析

实验结果表明，该方法在各项任务上均取得了更好的性能。通过可视化专家的激活模式，发现MoE系统没有等效地坍缩为单个模型，每个专家都对整体有贡献。在模型选择和数据选择的消融研究中，验证了该方法的有效性。

关键观点5: 结论

本文提出的方法通过K-shot数据在模型选择和数据扩增中发挥重要作用，优于现有方法，并通过消融研究验证了选择方法的有效性，展示了一种挖掘开放知识进行定制技能整合的高效流程。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · ScienceMeter：专注于语言模型中科学知识更新的评测工具-20250718142255

17 小时前

爱可可-爱生活 · 智能硬件控制进入新阶段，mcp2mqtt 打通物理设备与 AI -20250718142323

17 小时前

爱可可-爱生活 · Make It heavy：基于Python的多智能体框架，模拟-20250716140203

2 天前

爱可可-爱生活 · MoVieS：首个实现“一秒内运动感知4D动态视角合成”的前沿框-20250716140727

2 天前

新智元 · OpenAI离职员工自曝：干了一年就润了！007压力逼到极限，AGI成宗教

2 天前

中国农业银行陕西省分行 · 青春之名，各有所期 | 农行信用卡伴你悦「享」青春!

11 月前

新洞察 · 官宣“美诚月饼”调查结果！小杨哥又过关了？

10 月前

中国基金报 · 定了！10月15日上市

9 月前

亿翰智库 · 中国资源循环集团正式挂牌成立|速读ESG

9 月前

南方都市报 · 穿越千年的旅程！从不同角度，深入体验埃及

6 月前