专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

英伟达开源多模态NVLM 1.0屠榜！

AI算法与图像处理 · 公众号 · · 2024-09-24 17:00

文章预览

报道来源：新智元【导读】 NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设计（如动态高分辨率）虽然可以提高了与OCR相关的任务（例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准确率却会下降。此外，虽然开源的多模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

鱼羊史记 · 步入社会后才明白的道理

昨天

历史大学堂 · 女：彩礼能出30万吗？男：不能！女：房子加我名吗？男：不加！女：那你娶什么媳妇？男：我有三栋楼出租，月收租10万，但钱归我妈管。女（秒变脸）：阿姨身体还好吗？男：___________....

2 天前

海上风电观察 · 这一海上风电船舶事故，二审宣判！

8 月前

扩展迷EXTFANS · 《黑神话》火到破纪录，老黄都要到游戏展秀一把：全景光追英伟达独享，同款技术还有20+游戏在路上

8 月前

中国基金报 · “回购增持贷”火了！多家券商出手

6 月前