专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

联汇科技OmChat:突破长视频理解极限的多模态大模型

PaperWeekly  · 公众号  · 科研  · 2024-07-18 12:50

文章预览

多模态大模型,特别是长视频理解的多模态大模型的一个主要挑战是如何 高效管理和利用图像序列和视频帧的超长上下文数据 。OmChat 通过多阶段的训练,使得模型支持最长达 512K 词元,表现优于所有其他开源模型。本文对 OmChat 的关键技术,以及数据集的特点进行了总结。 论文标题: OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding 论文链接: https://arxiv.org/abs/2407.04923 代码链接: https://github.com/om-ai-lab/OmModel 扫码查看论文 扫码查看代码 本文结构 本文首先对文章的核心方法进行总结,包括作者如何将模型的上下文长度拓展到 512k(渐进的预训练方式),以及作者在预训练与指令微调阶段如何选择高质量数据。最后对 OmChat 模型在各个 benchmark 上的结果进行分析和展示,以及对作者提出的 benchmark 进行介绍。最后对文章进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览