专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

YOPO: 大幅缩减你的多模态大模型计算量至12%

AI前线  · 公众号  · AI  · 2024-12-01 13:30
    

文章预览

本篇论文的核心作者包括罗切斯特大学的博士研究生张泽良,指导教师徐辰良副教授,以及来自 Adobe 的研究员赵文天,万锟和李宇哲。 本文提出从参数和计算模式层面对多模态大模型做剪枝,以 LLaVA 为实验对象将计算量压缩至 12% 并获得与原始模型同等的性能,并进一步在 Qwen2-VL 和 InternVL2.0 上验证了此种剪枝策略的普适性。 论文标题:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See 论文地址: https://arxiv.org/abs/2410.06169 代码地址: https://github.com/ZhangAIPI/YOPO_MLLM_Pruning 项目主页:TBD 摘要 随着大语言模型的成功,多模态大模型通过整合视觉、文本和其他模态的信息,显著提升了多模态任务的表现。然而,视觉 token 数量的快速增长导致计算复杂度呈二次方增长,严重制约了模型的可扩展性和部署效率。本文针对这一问题,以 LLaVA 为例 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览