专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布

量子位  · 公众号  · AI  · 2025-02-17 11:54
    

文章预览

靳晨 投稿 量子位 | 公众号 QbitAI 这次不是卷参数、卷算力,而是卷“跨界学习”—— 让Stable Diffusion当老师,教多模态大模型(如Llama-3.2)如何“看图说话”! 性能直接飙升30%。 中国研究员联合DeepMind团队的最新研究 《Lavender: Diffusion Instruction Tuning》,通过简单的“注意力对齐”,仅需1天训练、2.5%常规数据量 ,即可让Llama-3.2等模型在多模态问答任务中性能飙升30%,甚至能防“偏科”(分布外医学任务提升68%)。 且代码、模型、训练数据将全部开源! 下面具体来看。 模仿Stable Diffusion的交叉注意力机制 当前遇到的问题是: 传统多模态大模型(VLM)的“视觉课”总不及格?数据不够、过拟合、细节抓不准……像极了考前突击失败的学渣。 对此,团队提出了新的解决方案: 让Stable Diffusion这位“图像生成课代表”,直接共享它的“学霸笔记”—— ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览