英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

机器学习研究组订阅 · 公众号 · AI · 2024-09-24 18:36

文章预览

文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设计（如动态高分辨率）虽然可以提高了与OCR相关的任务（例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准确率却会下降。此外，虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果，但在纯文本任务上的性能却有显著下降，与领先的闭源模型（如GPT-4o）的表现并不一致。为了改变这一现状，英伟达的研究团队最近宣布推出NVLM 1.0，在视觉-语言任务上取得了最先进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[74星]RapidUDF：高性能C++表达式/脚本执行引擎，-20250202223327

昨天

极市平台 · 一文详尽之Scaling Law

昨天

极市平台 · 一文详尽之Scaling Law

昨天

爱可可-爱生活 · 【o3-mini发布简评】- o3-mini是OpenAI发布的-20250201135759

3 天前

新机器视觉 · DeepSeek R1 入门指南：架构、训练、本地部署和硬件要求

3 天前

新机器视觉 · DeepSeek R1 入门指南：架构、训练、本地部署和硬件要求

3 天前

爱可可-爱生活 · 【[103星]Virtual Lab：一个为科学研究打造的AI虚-20250129195234

5 天前

长沙教育 · 课表出炉！“名师云课堂”明天更新！

7 月前

资治通信 · 《2024下半年专业知识与运营能力提升题目答案宝典》

3 月前