今天看啥  ›  专栏  ›  GitHub项目进阶

全新开源!微软发布视觉语言模型!能够执行超过……

GitHub项目进阶  · 公众号  ·  · 2024-11-20 14:58
    

文章预览

Microsoft推出的多模态视觉语言模型 模型地址 https://huggingface.co/microsoft/Florence-2-large   Florence-2 是一种 高级视觉基础模型 ,它使用基于提示的方法来处理各种视觉和视觉语言任务。Florence-2 可以解释简单的文本提示,以执行字幕、对象检测和分割等任务。它利用我们的 FLD-5B 数据集(包含 1.26 亿张图像中的 54 亿条注释)来掌握多任务学习。该模型的序列到序列架构使其在零镜头和微调设置中都表现出色,被证明是一个有竞争力的视觉基础模型。 1)结构 从左到右,看结构,有点像GPT,中间是Transformer, 解码器和编码器 多模态 在于:输入有图像,有文字; 比如上图,输入一张图片,输入五段文字, 1)图片表述什么 2)检测图像中的目标物体 3)检测:骑自行车的女人 4)(0,41,0,15……)区域是什么? 5)(……)区域是什么? 通过将视觉和文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览