文章预览
“ Can VLMs Play Action Role-Playing Games? Take Black MythWukong as a Study Case ” 《黑神话·悟空》火爆游戏圈,作为一名平常很少玩动作游戏的手残党,您是否连第一个BOSS幽魂都打不过? 为了帮助大家复仇,阿里的研究人员推出了一个VARP(视觉动作角色扮演)智能体框架,直接将游戏截图作为输入,通过视觉语言模型推理,最终生成动作指令,以此来操作游戏。 在《黑神话·悟空》中,该智能体可以在90%简单和中等水平战斗场景中取胜。使用魔法打败魔法! 项目主页:https://varp-agent.github.io/ 论文地址 :https://arxiv.org/pdf/2409.12889 摘要 大语言模型(LLM)在视频游戏中的应用取得进展,但传统方法依赖游戏API,限制了人类游戏体验的模拟。视觉语言模型(VLM)提升了视觉理解能力,使得仅通过视觉输入与游戏互动成为可能。当前方法在动作导向任务中仍面临挑战
………………………………