专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

新智元  · 公众号  · AI  · 2024-09-24 10:53

文章预览

   新智元报道   编辑:LRS 【新智元导读】 NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。 文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。 反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。 并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。 此外,虽然开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览