专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D

新智元 · 公众号 · AI · 2024-10-15 12:41

文章预览

新智元报道编辑：LRST 【新智元导读】 Robin3D通过鲁棒指令数据生成引擎（RIG）生成的大规模数据进行训练，以提高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。近来，越来越多的研究聚焦于3D大语言模型（3DLLM），旨在实现对3D物体以及复杂场景的理解，推理和自由对话。与2D MLLM所能接触的广泛的多模态数据不同，3DLLM的训练数据相对稀少。即便过去有些工作尝试生成更多的多模态指令数据，但这类模型仍然在指令的鲁棒性上存在两点不足： 1. 绝大多数3D多模态指令数据对是正样本对，缺乏 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@真的真的是最后亿个号了:我只是列了两个年代的提示词作为参考-20250425235631

18 小时前

爱可可-爱生活 · 【[98星]awesome-VLLMs：汇集视觉语言大模型（VL-20250424210555

昨天

黄建同学 · Listen，刚获得2700 万美元投资。市面上第一个AI 客户-20250424121835

2 天前

宝玉xp · AI 根据你上传的照片画排版肖像画（Typography Por-20250423235747

2 天前

爱可可-爱生活 · 【[365星]ElatoAI：基于OpenAI实时API和ESP-20250423220119

2 天前

常岩CY · 回复@小薰ta爹:换辆好车，事半功倍。//@小薰ta爹:这还真有-20240613053315

10 月前

国企求职网 · 国家电网2025届校园招聘计划及薪资待遇！

9 月前

电脑吧评测室 · 【硬件资讯】先卖厂！后卖楼！资产越少我越牛！Intel自救计划揭露，等会儿？这剧本是不是有点似曾相识？？

7 月前

中交一航 · 4000匹多功能拖轮“一航津远” 正式交付使用

7 月前

东莞本地宝 · 东莞市汽车东站国庆车票已开始预售！

7 月前