A3VLM: 一种基于视觉语言模型的关节感知的通用操作解决方案 | 联培生佳作

AI生成未来 · 公众号 · · 2024-07-30 05:30

文章预览

点击下方卡片，关注“ AI生成未来 ” 请加小助理加入AIGC技术交流群备注公司/学校+昵称+研究方向，广告勿扰感谢知乎@东林钟声撰写了本篇论文解读的底稿，论文一作为22级交大联培博士黄思渊，更正修改后形成本文。 A3VLM基于sphinx模型，通过多轮对话形式，精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。论文地址（点击“阅读原文”直达）： https://arxiv.org/abs/2406.07549 代码地址： https://github.com/changhaonan/A3VLM 模型地址： https://huggingface.co/SiyuanH/A3VLM7B 研究背景在具身智能这个概念下，参考知乎@东林钟声对现在主流具身智能的技术路线分类如下：按照上述技术流程分类，A3VLM属于利用LLM的问答能力从文本中提取Affordance或者可动属性（转动、平移）的模型。更具体的来说，A3VLM将人类指令理解、具身动作输出、关节 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博