专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

腾讯优图+华中科大+浙大开源LLaVA-KD | 保持小模型架构不变的情况下显著提高了性能

CV技术指南  · 公众号  ·  · 2024-11-01 09:10

文章预览

前言   小规模多模态语言模型( -MLLM)旨在保留大规模模型( -MLLM)的能力,同时降低计算需求,但导致性能显著下降。 为了解决上述问题,作者提出了一种新颖的 LLaVA-KD框架,用于从 -MLLM向 -MLLM转移知识 。具体来说,作者引入多模态蒸馏(MDI)来最小化 -MLLM和 -MLLM之间的视觉-文本输出分布的差异,并引入关系蒸馏(RDist)来转移 -MLLM建模视觉特征之间的相关性能力。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 代码: https://github.com/Fantasyele/LLaVA-KD 1 简介 受到自然语言处理领域大语言模型(LLM)显著成就的启发,一个新兴且快速发展的研究领域正专注于多模态大语言模型(MLLM)的发展。这些模型将视觉编码器、特征 Projector 与LLM相结合,实现视觉和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览