专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

新智元 · 公众号 · AI · 2024-09-24 10:53

文章预览

新智元报道编辑：LRS 【新智元导读】 NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设计（如动态高分辨率）虽然可以提高了与OCR相关的任务（例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准确率却会下降。此外，虽然开 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · //@马少平THU:好精彩//@刘群MT-to-Death:编都-20241122070908

昨天

宝玉xp · 随着 AI 编程能力提升和 AI 工具的增强，最近掀起了“人人写-20241120131523

3 天前

宝玉xp · 最新版的 Chrome（v131）添加了很多 AI 功能，比如帮-20241120121739

3 天前

机器之心 · 高通的自研架构芯片，正在整合生成式AI世界

4 天前

人工智能那点事 · 包月高达3万元！陪聊、哄睡流行，“情绪消费”还是涉黄服务？

5 天前

FDA食安云 · 进群——食品安全专业群！

4 月前

CG世界 · 如何制作大漠东升旭日

2 月前