专栏名称: 数薮智能
搜集、组织、学习、展示与大数据、自然语言处理和大语言模型相关的技术、方法、知识和成果
今天看啥  ›  专栏  ›  数薮智能

大语言模型周报

数薮智能  · 公众号  ·  · 2024-12-12 19:29
    

文章预览

多模态 EarthMarker: 一种用于遥感的视觉提示多模态大型语言模型(EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing) 论文链接: https://arxiv.org/pdf/2407.13596 图1 EarthMarker的整体模型架构。包含四个核心组件:共享视觉编码模块、模态对齐投影层、文本分词器模块以及LLM解码器。(b)跨域训练。整个训练过程被分为三个阶段:多领域图像-文本对齐、空间感知调优以及RS视觉提示调优阶段。 电气与电子工程师协会(IEEE)的研究团队在RS领域提出了首个基于视觉提示的多模态大型语言模型——EarthMarker。该模型通过使用新构建的RSVP数据集和视觉提示学习框架(一种共享视觉编码方法来统一细化多尺度视觉特征与视觉提示内容)能够在图像、区域及点等多个粒度级别上具备多粒度视觉理解能力;并且通过跨域学习促进RS影像理解,弥合了自然场景 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览