专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
今天看啥  ›  专栏  ›  学姐带你玩AI

NeurIPS Oral丨视觉指令调整

学姐带你玩AI  · 公众号  ·  · 2024-08-12 18:10

文章预览

来源:投稿  作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2304.08485 项目主页:https://github.com/haotian-liu/LLaVA unset unset 摘要: unset unset 使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但这个想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,我们引入了 LLaVA:大型语言和视觉助手,这是一个端到端训练的大型多模态模型,它连接视觉编码器和 LLM,用于通用视觉和语言理解。为了促进未来对视觉指令跟踪的研究,我们构建了两个具有多样化和具有挑战性的面向应用任务的评估基准。我们的实验表明,LLaVA 表现出令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上表现出多模态 GPT-4 的行为,并且 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览