文章预览
论文名:Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment 论文链接:https://arxiv.org/pdf/2502.04328 开源代码:https://github.com/Ola-Omni/Ola 导读 多模态大语言模型因其强大的指令遵循能力以及处理包括文本、图像、视频和音频在内的复杂输入的丰富知识而受到越来越多的关注。基于开源大语言模型的出色表现,人们在将特定模态与语言响应相连接方面进行了大量研究。最近,旨在支持大语言模型中更多模态的 GPT - 4o和 Gemini的成功,激励研究人员朝着能够在一个模型中理解所有输入的全模态模型迈出重要一步。 简介 在本文中,我们提出了 Ola,这是一种全模态语言模型,在图像、视频和音频理解方面与专门的同类模型相比具有竞争力。Ola 的核心设计在于其渐进式模态对齐策略,该策略逐步扩展语言模型支持的模态。我们的训练流程从最
………………………………