文章预览
点击关注一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~ 标题 :《AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One》 论文 :https://arxiv.org/pdf/2312.06709 源码 :https://github.com/NVlabs/RADIO 导读 AM-RADIO 是什么?一张图先来感受它的魅力: 简单来说,AM-RADIO 是一个由英伟达提出的一个视觉基础模型框架,其集成了多个预训练的视觉基础模型如 CLIP、DINOv2及SAM 的能力,以获得强大的表征能力,同时也以几乎可以忽略不计的额外成本实现了SOTA级别的零样本分类或开集实例分割性能。 如上图左边所示的PCA特征可视化结果,RADIO 模型可以处理任何分辨率和宽高比,并产生语义丰富的稠密编码;上图中间则展示了 RADIO 的框架图;右侧显示了在分类、分割和视觉语言建模任务上的基准测
………………………………