专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务

量子位  · 公众号  · AI  · 2024-07-02 12:18
    

文章预览

Prism团队 投稿至 凹非寺 量子位 | 公众号 QbitAI 只要把推理和感知能力拆分,2B大模型就能战胜20B?! 上海AI Lab联合南京大学、香港中文大学等机构,共同推出了一套两阶段框架—— Prism 。 这一框架不仅显式地解耦了视觉语言模型 (VLM)  的感知和推理,还提供了一种更高效的处理视觉语言任务的方案。 最终让2B VLM和ChatGPT的组合表现出相当于10倍参数量VLM的性能。 Prism框架架构及功能 在解决复杂的视觉语言任务时,模型的感知和推理能力至关重要。当模型在基准测试中表现不佳时,我们如何区分问题源自感知能力还是推理能力? 针对这一问题,Prism框架将视觉语言任务处理拆分为两个独立阶段: 感知阶段:  VLM作为感知模块遵循指令提取输入图片的视觉信息,并以文本形式输出 推理阶段:  LLM作为推理模块根据提取得到的文本信息,结合输入 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览