今天看啥  ›  专栏  ›  灵度智能

不到4B的多模态大语言模型Mini-InternVL:能快速迁移到自动驾驶的口袋多模态模型

灵度智能  · 公众号  ·  · 2024-10-25 12:20
    

文章预览

Abstract 多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,涵盖了广泛的领域。然而,大规模模型和高计算成本给在消费级GPU或边缘设备上的训练和部署带来了巨大挑战,从而阻碍了其广泛应用。为了解决这个问题,我们推出了Mini-InternVL,一系列参数在1B到4B之间的多模态大语言模型,其性能可达90%,但参数量仅为5%。这种显著的效率和效果提升,使我们的模型在各种实际场景中更加易于使用和应用。为了进一步推动我们的模型普及,我们开发了一个统一的适配框架,使Mini-InternVL能够迁移并在下游任务(包括自动驾驶、医学图像和遥感)中超过专用模型。我们相信我们的研究能够为高效且有效的多模态大语言模型的发展提供宝贵的见解和资源。 项目地址 :https://github.com/OpenGVLab/InternVL  欢迎加入自动驾驶实战群 Introduction 近年来,多模态大语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览