文章预览
报告主题: MetaMorph, 探索LLM隐藏的视觉能力, 从LLM到Unifed Model 报告日期: 01 月09日(下周四)10:30-11:30 报告要点: 我们提出了一种简单高效的视觉指令微调扩展方法——视觉预测指令微调(Visual-Predictive Instruction Tuning, VPiT),能够快速将预训练的大语言模型(LLM)转化为统一的自回归模型,实现同时生成文本和视觉标记的能力。VPiT通过将图像与文本数据组织为指令形式的输入序列,教会LLM预测离散的文本标记和连续的视觉标记。我们的实证研究揭示了VPiT的几个有趣特性: 视觉生成能力作为视觉理解能力提升的自然产物可以高效地通过少量生成数据激活; 尽管理解与生成能力相辅相成,但理解数据对两种能力的提升效果均优于生成数据。 基于上述发现,我们训练了MetaMorph模型,在视觉理解和生成任务中均取得了具有竞争力的表现。在视觉生成任务
………………………………