连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

机器学习研究组订阅  · 公众号  · AI  · 2024-09-24 18:36

文章预览

文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。 反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。 并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。 此外,虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果,但在纯文本任务上的性能却有显著下降,与领先的闭源模型(如GPT-4o)的表现并不一致。 为了改变这一现状,英伟达的研究团队最近宣布推出NVLM 1.0,在视觉-语言任务上取得了最先进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览