VisionLLM v2：一个端到端MLLM覆盖上百种任务（上海AI Lab&港大）

自动驾驶Daily · 公众号 · · 2024-11-14 07:30

文章预览

作者 | 同屿Firmirin 编辑 | 自动驾驶Daily 原文链接：https://zhuanlan.zhihu.com/p/5260450123 点击下方卡片，关注“ 自动驾驶Daily ”公众号戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群微信扫描以下二维码，『自动驾驶之心知识星球』，国内最专业的技术和求职交流社区，和3500人一起卷赢文章：VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks GitHub：https://github.com/OpenGVLab/VisionLLM keypoints 一个多模态大模型端到端地解决上百种视觉任务；引入了super-link超链接技术，用于融合MLLM和各种下游任务的编码器，可以实现端到端训练；在非常多的各种类型的bench上表现优异。文章写的比较细致，能当MLLM如何解决难点视觉任务的综述了。训练策略值得一看。精读 1. background 本文的Introduction写得很 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博