专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

3D场景的大语言模型：在鲁棒数据训练下的3DLLM新SOTA!

我爱计算机视觉 · 公众号 · · 2024-10-03 22:27

文章预览

关注公众号，发现CV技术之美论文地址：https://arxiv.org/abs/2410.00255 代码将开源：https://github.com/WeitaiKang/Robin3D 介绍多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。近来，越来越多的研究聚焦于3D大语言模型（3DLLM），旨在实现对3D物体以及复杂场景的理解，推理和自由对话。与2D MLLMs所能接触的广泛的多模态数据不同，3DLLMs的训练数据相对稀少。即便过去有些工作尝试生成更多的多模态指令数据，他们仍然在指令的鲁棒性上存在两点不足： 1）绝大多数3D多模态指令数据对是正样本对，缺乏负样本对或者对抗性样本对。模型在这种数据上训练缺乏一定的辨识能力，因为无论被问到什么问题，模型只会输出正面的回答。因此碰到问题与场景无关时 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博