社区供稿 | 引入隐式模型融合技术，中山大学团队推出 FuseChat-3.0

魔搭ModelScope社区 · 公众号 · · 2024-12-19 17:41

文章预览

01 前言在大语言模型（LLM）领域，结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而，以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。近日，中山大学的研究团队提出了 FuseChat-3.0，一种利用偏好优化进行隐式模型融合的新方法。不同于显式模型融合需要对齐不同模型的概率分布，FuseChat-3.0 通过构建偏好数据集并应用监督微调（SFT）和直接偏好优化（DPO）两个阶段，将多个源模型的能力隐式地迁移到目标模型中，实现了在不增加推理开销的前提下，显著提升目标模型的性能。项目主页： https://slit-ai.github.io/FuseChat-3.0 模型地址： https://www.modelscope.cn/organization/FuseAI 论文链接： https://arxiv.org/abs/2412.03187 02 方法介绍 FuseChat-3.0的核心在于利用偏好优化进行隐式模型融合（IMF），从多个强大的源模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博