文章预览
多模态 EarthMarker: 一种用于遥感的视觉提示多模态大型语言模型(EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing) 论文链接: https://arxiv.org/pdf/2407.13596 图1 EarthMarker的整体模型架构。包含四个核心组件:共享视觉编码模块、模态对齐投影层、文本分词器模块以及LLM解码器。(b)跨域训练。整个训练过程被分为三个阶段:多领域图像-文本对齐、空间感知调优以及RS视觉提示调优阶段。 电气与电子工程师协会(IEEE)的研究团队在RS领域提出了首个基于视觉提示的多模态大型语言模型——EarthMarker。该模型通过使用新构建的RSVP数据集和视觉提示学习框架(一种共享视觉编码方法来统一细化多尺度视觉特征与视觉提示内容)能够在图像、区域及点等多个粒度级别上具备多粒度视觉理解能力;并且通过跨域学习促进RS影像理解,弥合了自然场景
………………………………