今天看啥  ›  专栏  ›  旺知识

多模态交互智能体(Agent)全面综述:定义、范式、学习、系统、分类、应用、评估

旺知识  · 公众号  ·  · 2024-07-13 16:10

文章预览

多模态AI系统很可能会成为我们日常生活中无处不在的存在。 使这些系统更具交互性的一种有希望的方法是将它们作为物理和虚拟环境中的智能体。 目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。 将智能体嵌入这些环境中,有助于模型处理和解释视觉和上下文数据,这对于创建更复杂和上下文感知的AI系统至关重要。 例如,一个能够感知用户行为、人类行为、环境对象、音频表达和场景集体情感的系统,可以用来通知和指导给定环境中智能体的响应。 为了加速基于智能体的多模态智能研究,我们定义“智能体AI”为一类交互系统,能够感知视觉刺激、语言输入和其他环境基础数据,并能够产生有意义的具身行动。 特别是,我们探索了旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一个具身行动预测的智能体的系 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览