专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

微软开源实时交互模型:提升Agent动态复杂处理能力

AIGC开放社区  · 公众号  · 科技创业 科技自媒体  · 2025-04-19 05:21
    

主要观点总结

微软研究院开源了一个实时交互世界模型——MineWorld,该模型以Transformer为核心,结合了沙盒游戏《我的世界》开发。MineWorld在感知、决策、预测以及动态复杂环境的综合处理能力上表现优异。文章详细描述了MineWorld的技术架构、特点以及相对于其他模型的性能优势。

关键观点总结

关键观点1: 技术架构

MineWorld主要由Transformer解码器、视觉标记器、动作标记器以及并行解码算法四大块组成。

关键观点2: 性能优势

相对于其他世界模型,MineWorld在视频质量、可控性、推理速度等方面表现更优秀。

关键观点3: 视觉标记器和动作标记器的作用

视觉标记器将游戏场景中的图像数据转化为离散的token,而动作标记器则将玩家的操作转化为离散的token,为模型训练提供了高效的数据表示。

关键观点4: 并行解码算法

为了提高解码速度,MineWorld采用了并行解码算法,利用图像标记之间的空间冗余性,实现了高效的实时交互。

关键观点5: 智能体的好处

MineWorld可助力智能体理解环境状态和自身行为,学习游戏物理知识,预测未来游戏状态,精准执行决策,提高行动成功率。


文章预览

微软研究院开源了一个实时交互世界模型—— MineWorld 。 MineWorld 以 Transformer  为核心,并结合大热门沙盒游戏《我的世界》开发而成。这是因为游戏是评估、训练 Agent 在感知、决策、预测,以及在动态复杂环境的综合处理能力的最佳场景之一。 根据测试数据显示, MineWorld 在多方面远超知名世界模型 Oasis 。视频质量上, 3 亿参数的 MineWorld 的 FVD 值 246 低于 Oasis 的 377 , SSIM 值 0.38 高于 Oasis 的 0.36 。 可控性方面, MineWorld 的 3 亿和 7 亿参数模型 F1 分数达 0.70 , 12 亿参数模型为 0.73 ,远高于 Oasis 的 0.41 ;相机控制 L1 损失也更低。推理速度上, MineWorld 每秒生成 5.91 帧,远超 Oasis 的 2.58 帧。 开源地址: https://github.com/microsoft/MineWorld MineWorld 架构 MineWorld 的架构主要由 Transformer  解码器、视觉标记器、动作标记器以及并行解码算法 4 大块组成。 Transfor ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览