文章预览
点击下方 卡片 ,关注“ AI生成未来 ” 请加小助理 加入AIGC技术交流群 备注公司/学校+昵称+研究方向, 广告勿扰 感谢知乎@东林钟声撰写了本篇论文解读的底稿,论文一作为22级交大联培博士黄思渊,更正修改后形成本文。 A3VLM基于sphinx模型,通过多轮对话形式,精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。 论文地址(点击“阅读原文”直达): https://arxiv.org/abs/2406.07549 代码地址: https://github.com/changhaonan/A3VLM 模型地址: https://huggingface.co/SiyuanH/A3VLM7B 研究背景 在具身智能这个概念下,参考 知乎@东林钟声 对现在主流具身智能的技术路线分类如下: 按照上述技术流程分类,A3VLM属于利用LLM的问答能力 从文本中提取Affordance或者可动属性(转动、 平移 )的模型。 更具体的来说,A3VLM将人类指令理解、具身动作输出、关节
………………………………