专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

BLIP家族再添成员!模型架构、训练集多维升级!

自动驾驶之心  · 公众号  ·  · 2024-08-24 00:00
    

文章预览

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我->  领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 编辑 | 自动驾驶之心 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models https://arxiv.org/abs/2408.08872 大型多模态模型(Large Multimodal Models, LMM)通过结合视觉和语言信息,展现出在多种应用场景中的泛化能力。在这一领域,专有模型如以及开源LMM例如所取得的显著进展,但开源模型与专有模型之间在某些关键资源的获取上存在不小差距,特别是在开放权重、训练方法和精选数据集的访问方面。这种差异阻碍了开源社会群体在复制、理解以及对LMM进行进一步改进方面的努力。 对此,Salesforce AI Research团队和华盛顿大学合作开发了一个名为xGen-MM(也称为BLIP-3)的框架,它是用于开发大型多模态模型(LMMs)的一套 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览