大语言模型周报

数薮智能 · 公众号 · · 2024-12-12 19:29

文章预览

多模态 EarthMarker: 一种用于遥感的视觉提示多模态大型语言模型（EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing）论文链接： https://arxiv.org/pdf/2407.13596 图1 EarthMarker的整体模型架构。包含四个核心组件：共享视觉编码模块、模态对齐投影层、文本分词器模块以及LLM解码器。(b)跨域训练。整个训练过程被分为三个阶段：多领域图像-文本对齐、空间感知调优以及RS视觉提示调优阶段。电气与电子工程师协会（IEEE）的研究团队在RS领域提出了首个基于视觉提示的多模态大型语言模型——EarthMarker。该模型通过使用新构建的RSVP数据集和视觉提示学习框架（一种共享视觉编码方法来统一细化多尺度视觉特征与视觉提示内容）能够在图像、区域及点等多个粒度级别上具备多粒度视觉理解能力；并且通过跨域学习促进RS影像理解，弥合了自然场景 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博