成果分享 | “读懂地图”的多模态大模型MapReader

GIS研发 · 公众号 · · 2024-09-26 18:57

主要观点总结

文章介绍了中国地质大学禹文豪教授团队研发的多模态大模型MapReader，该模型主要用于地图分析。文章详细描述了MapReader的功能、构成及训练策略。

关键观点总结

关键观点1: 成果负责人介绍

成果负责人为中国地质大学禹文豪教授，他主要从事地图综合、空间数据挖掘及大模型等研究。

关键观点2: 系统演示链接

读者可以通过点击文章中的链接在Bilibili网站上观看系统演示。

关键观点3: 成果介绍

MapReader是一个用于地图分析的大型视觉语言模型，具有显著改进的识别地理对象及其空间关系的能力。该模型由Vision Transformer (ViT)编码器和预训练的大型语言模型（LLM）构成。为了适应用于地图领域，团队使用了特定的训练策略和调整模型参数，包括收集高质量的地图文本数据、使用LoRA微调、添加分支通道等。

关键观点4: 模型参数与训练

MapReader的参数规模为17B，主要由ViT编码器和LLM构成。训练策略采用LoRA微调，并在ViT和LLM中应用了附加分支通道以增强模型对地图领域的理解。预训练过程在4个A100 GPU上进行。

文章预览

点击蓝字关注我们 “读懂地图”的多模态大模型MapReader 01 成果负责人禹文豪，中国地质大学（武汉）地理与信息工程学院，教授，博士生导师，主要从事地图综合、空间数据挖掘及大模型等研究。（联系邮箱： yuwh@cug.edu.cn；个人网站： http://grzy.cug.edu.cn/yuwenhao/zh_CN/index.htm） 02 系统演示链接网址：https://www.bilibili.com/video/BV1dpszeoEew（点击左下“阅读原文”可直接访问）。 03 成果介绍比较自然图片，地图在符号、文字注释、幅面等方面均有其特殊性，一般大模型难以理解其高度抽象的表达形式和内容，亟需建立专业的地图分析大模型与软件系统。MapReader是一个用于地图分析的大型视觉语言模型，在识别地理对象及其空间关系等方面取得了显著改进，其可提供比一般视觉语言模型更详细的地图内容描述。该模型的参数规模为17B（170亿），主要由 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博