文章预览
24年8月来自意大利几所大学的论文“Multi-agent Planning using Visual Language Models”。 大语言模型 (LLM) 和视觉语言模型 (VLM) 因其在各个领域和任务中提高性能和应用而受到越来越多的关注。然而,LLM 和 VLM 可能会产生错误的结果,尤其是需要深入了解问题域时。例如,当需要同时进行规划和感知时,这些模型通常会因为难以合并多模态信息而陷入困境。为了解决这个问题,通常使用微调模型,并在表征环境的专门数据结构上进行训练。这种方法的有效性有限,因为它会使处理环境过于复杂。本文提出一种用于具体任务规划的多智体架构,它不需要特定的数据结构作为输入。相反,它使用环境的单一图像,利用常识来处理自由域。还有一种全自动评估程序 PG2S,旨在更好地评估规划的质量。 基础模型 (FM) 是机器学习模型,它们在大量(互联网规模)数据上
………………………………