今天看啥  ›  专栏  ›  魔搭ModelScope社区

Florence-2,小模型推进视觉任务的统一表征

魔搭ModelScope社区  · 公众号  ·  · 2024-07-01 22:40

文章预览

01 引言 微软视觉基础模型Florence-2开源了! Florence-2是一种新颖的视觉基础模型,具有统一的、基于提示的表示,可用于各种计 算机视觉和视觉语言任务。虽然现有的VLM在迁移学习方面表现出色,但它们难以用简单的指令执行各种任务,这种能力意味着处理各种空间层次和语义粒度的复杂性。Florence-2 旨在将文本提示作为任务指令,并以文本形式生成理想的结果,无论是字幕、对象检测、基础还是分割。 但是,在各行各业的各种垂直领域任务,Florence-2可能不支持,或者针对某项任务的输出不符合预期。我们可以通过微调来优化和改善Florence-2在垂直领域任务的效果。 Florence-2是一个sequence to sequence模型,使用 DaViT 视觉编码器将图像转换为视觉Embedding,并使用 BERT 将prompt转换为文本和位置Embedding。Florence-2主要优势在数据上,多任务学习设置需要大规模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览