今天看啥  ›  专栏  ›  自动驾驶Daily

VisionLLM v2:一个端到端MLLM覆盖上百种任务(上海AI Lab&港大)

自动驾驶Daily  · 公众号  ·  · 2024-11-14 07:30
    

文章预览

作者 | 同屿Firmirin  编辑 | 自动驾驶Daily 原文链接:https://zhuanlan.zhihu.com/p/5260450123 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我->  领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码, 『自动驾驶之心知识星球』 , 国内最专业的技术和求职交流社区, 和3500人一起卷赢 文章:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks GitHub:https://github.com/OpenGVLab/VisionLLM keypoints 一个多模态大模型端到端地解决上百种视觉任务; 引入了super-link超链接技术,用于融合MLLM和各种下游任务的编码器,可以实现端到端训练; 在非常多的各种类型的bench上表现优异。 文章写的比较细致,能当MLLM如何解决难点视觉任务的综述了。 训练策略值得一看。 精读 1. background 本文的Introduction写得很 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览