只需将感知推理能力拆分，2B大模型就能战胜20B！国产新框架高效处理视觉任务

量子位 · 公众号 · AI · 2024-07-02 12:18

文章预览

Prism团队投稿至凹非寺量子位 | 公众号 QbitAI 只要把推理和感知能力拆分，2B大模型就能战胜20B？！上海AI Lab联合南京大学、香港中文大学等机构，共同推出了一套两阶段框架—— Prism 。这一框架不仅显式地解耦了视觉语言模型（VLM）的感知和推理，还提供了一种更高效的处理视觉语言任务的方案。最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。 Prism框架架构及功能在解决复杂的视觉语言任务时，模型的感知和推理能力至关重要。当模型在基准测试中表现不佳时，我们如何区分问题源自感知能力还是推理能力？针对这一问题，Prism框架将视觉语言任务处理拆分为两个独立阶段：感知阶段： VLM作为感知模块遵循指令提取输入图片的视觉信息，并以文本形式输出推理阶段： LLM作为推理模块根据提取得到的文本信息，结合输入 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 华人女数学家提前锁定菲尔兹奖？王虹127页破解几何世纪难题，陶哲轩盛赞

11 小时前

一梦何求 · 早盘韬略【0227】

昨天

一梦何求 · 早盘韬略【0227】

昨天

爱可可-爱生活 · 【一个关于长上下文大语言模型（LLM）的综述性研究，涵盖了架构、-20250226185343

2 天前

黄建同学 · //@karminski-牙医:解释下这个库能干嘛：大家都知道D-20250226124430

2 天前

申妈的朋友圈 · 曹大鹏出任即梦AI移动端负责人向张楠汇报

3 天前

申妈的朋友圈 · 曹大鹏出任即梦AI移动端负责人向张楠汇报

3 天前

中储棉信息中心 · 进口棉：ICE跌破70美分部分高价合同难执行

7 月前

短剧新圈 · “今年充值过亿的微短剧可能不超过5部”丨点众科技执行总裁李江

3 月前

短剧新圈 · “今年充值过亿的微短剧可能不超过5部”丨点众科技执行总裁李江

3 月前

德大器械产业管家 · 【最新通知】国家药监局注销4个医疗器械注册证书的公告

2 月前