专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
今天看啥  ›  专栏  ›  计算机视觉研究院

顶会新方向!全新多模态大模型统一分割框架

计算机视觉研究院  · 公众号  ·  · 2024-11-01 14:30
    

文章预览

当前普遍的分割方法擅长像素级的图像和视频理解,但缺乏推理能力,且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大,却缺失像素级理解,且难以接受视觉提示。 昆仑天工首发提出OMG-LLaVA框架,将强大的像素级视觉理解与推理能力相结合,可以接受各种视觉和文本提示以实现灵活的用户交互, 它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。 读论文是学习新知识的最快途径,研梦非凡于11月8日晚(周五),邀请了多模态专家王导师,为大家独家详解 《顶会新方向!CVPR+NeurIPS:分割大模型》 ,从 OMG-Llava框架 到 O MG-Seg编码器 , 重点讲解OMG-Llava的模型架构以及实验 , 包括两篇顶会论文的分析解读, 最后代码演示 ,一节课速通分割大模型,领会顶会idea! 👇🏻扫描二维码找助教0元 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览