文章预览
以下 文 章来源于微信公众号:C VHub 作者: 派派星 链接:https://mp.weixin.qq.com/s/K-_aIS-FrdyCht2zwnLjrA 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 如何将不同目标的视觉基础模型有效地合并成一个统一模型,以提高性能和硬件效率?近日,英伟达发布新一代视觉基础模型: AM-RADIO = CLIP + DINOv2 + SAM,极大的促进了视觉大一统! 标题 :《AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One》 论文 :https://arxiv.org/pdf/2312.06709 源码 :https://github.com/NVlabs/RADIO 引言 AM-RADIO 是什么?一张图先来感受它的魅力: 简单来说,AM-RADIO 是一个由英伟达提出的一个视觉基础模型框架,其集成了多个预训练的视觉基础模型如 CLIP、DINOv2及SAM 的能力,以获得强大的表征能力,同时也以几乎可以忽略不计的额外成本实现了SOTA级别的零样本分类或开集实例
………………………………