注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
量子位
·
乌镇最火AI议题,原来答案藏在这份报告里
·
8 小时前
爱可可-爱生活
·
//@爱可可-爱生活:欢迎参与~-20241 ...
·
13 小时前
爱可可-爱生活
·
【Marco-o1:开源大型推理模型,专注于 ...
·
2 天前
新智元
·
美国教授痛心:UC伯克利GPA ...
·
2 天前
爱可可-爱生活
·
【Grunty:基于Claude的电脑控制A ...
·
3 天前
今天看啥
›
专栏
›
机器学习研究组订阅
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
机器学习研究组订阅
·
公众号
·
AI
· 2024-09-24 18:36
文章预览
文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。 反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。 并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。 此外,虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果,但在纯文本任务上的性能却有显著下降,与领先的闭源模型(如GPT-4o)的表现并不一致。 为了改变这一现状,英伟达的研究团队最近宣布推出NVLM 1.0,在视觉-语言任务上取得了最先进 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
量子位
·
乌镇最火AI议题,原来答案藏在这份报告里
8 小时前
爱可可-爱生活
·
//@爱可可-爱生活:欢迎参与~-20241125073558
13 小时前
爱可可-爱生活
·
【Marco-o1:开源大型推理模型,专注于解决现实世界的开放性-20241123155539
2 天前
新智元
·
美国教授痛心:UC伯克利GPA 4.0计算机本科生,毕业即失业?ML博士直呼太卷后悔转行
2 天前
爱可可-爱生活
·
【Grunty:基于Claude的电脑控制AI助手,可通过自然语-20241122200042
3 天前