刷新多个SOTA！Robin3D：3D场景的大语言模型来了！

CVer · 公众号 · · 2024-10-06 23:59

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！论文： https://arxiv.org/abs/2410.00255 代码：https://github.com/WeitaiKang/Robin3D 介绍多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。近来，越来越多的研究聚焦于3D大语言模型（3DLLM），旨在实现对3D物体以及复杂场景的理解，推理和自由对话。与2D MLLMs所能接触的广泛的多模态数据不同，3DLLMs的训练数据相对稀少。即便过去有些工作尝试生成更多的多模态 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博