专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

微软开源实时交互模型：提升Agent动态复杂处理能力

AIGC开放社区 · 公众号 · 科技创业科技自媒体 · 2025-04-19 05:21

主要观点总结

微软研究院开源了一个实时交互世界模型——MineWorld，该模型以Transformer为核心，结合了沙盒游戏《我的世界》开发。MineWorld在感知、决策、预测以及动态复杂环境的综合处理能力上表现优异。文章详细描述了MineWorld的技术架构、特点以及相对于其他模型的性能优势。

关键观点总结

关键观点1: 技术架构

MineWorld主要由Transformer解码器、视觉标记器、动作标记器以及并行解码算法四大块组成。

关键观点2: 性能优势

相对于其他世界模型，MineWorld在视频质量、可控性、推理速度等方面表现更优秀。

关键观点3: 视觉标记器和动作标记器的作用

视觉标记器将游戏场景中的图像数据转化为离散的token，而动作标记器则将玩家的操作转化为离散的token，为模型训练提供了高效的数据表示。

关键观点4: 并行解码算法

为了提高解码速度，MineWorld采用了并行解码算法，利用图像标记之间的空间冗余性，实现了高效的实时交互。

关键观点5: 智能体的好处

MineWorld可助力智能体理解环境状态和自身行为，学习游戏物理知识，预测未来游戏状态，精准执行决策，提高行动成功率。

文章预览

微软研究院开源了一个实时交互世界模型—— MineWorld 。 MineWorld 以 Transformer 为核心，并结合大热门沙盒游戏《我的世界》开发而成。这是因为游戏是评估、训练 Agent 在感知、决策、预测，以及在动态复杂环境的综合处理能力的最佳场景之一。根据测试数据显示， MineWorld 在多方面远超知名世界模型 Oasis 。视频质量上， 3 亿参数的 MineWorld 的 FVD 值 246 低于 Oasis 的 377 ， SSIM 值 0.38 高于 Oasis 的 0.36 。可控性方面， MineWorld 的 3 亿和 7 亿参数模型 F1 分数达 0.70 ， 12 亿参数模型为 0.73 ，远高于 Oasis 的 0.41 ；相机控制 L1 损失也更低。推理速度上， MineWorld 每秒生成 5.91 帧，远超 Oasis 的 2.58 帧。开源地址： https://github.com/microsoft/MineWorld MineWorld 架构 MineWorld 的架构主要由 Transformer 解码器、视觉标记器、动作标记器以及并行解码算法 4 大块组成。 Transfor ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

IPO早知道 · 手回集团今起招股：获约5000万港元基石认购，以创新保险服务覆盖全生命周期

7 小时前

公安部网安局 · 国家网络身份认证公共服务创新应用亮相第12届中国国际警用装备博览会

昨天

公安部网安局 · 国家网络身份认证公共服务创新应用亮相第12届中国国际警用装备博览会

昨天

CMKT咨询圈 · 金蝶AI新品全线发布，开启企业管理AI时代

昨天

CMKT咨询圈 · 金蝶AI新品全线发布，开启企业管理AI时代

昨天

一涵笔记 · 红杉：AI的汹涌浪潮足以淹没任何宏观噪音！

2 天前

一涵笔记 · 红杉：AI的汹涌浪潮足以淹没任何宏观噪音！

2 天前

Hollis · 一边是计算机就业哀鸿遍野，一边是高考生疯狂涌向计算机专业，太魔幻了！

3 天前

Hollis · 一边是计算机就业哀鸿遍野，一边是高考生疯狂涌向计算机专业，太魔幻了！

3 天前

转化医学网 · 抑制肿瘤增殖和生长！山东大学发文：有前途的癌症靶向治疗新策略

6 月前

钛媒体 · A股三大股指迎来三连跌；中央空管委即将开展eVTOL试点 | 科股快报

6 月前

俄钓4研究院 · （11.22）26图拉多丨银胖2蓝15星，耗时1.5小时

6 月前

盐财经 · 贵人鸟，改名“金鹤农业”

4 月前