文章预览
24年8月来自谷歌和以色列特拉维夫大学的论文“Diffusion Models Are Real-time Game Engines”。 GameNGen,是完全由神经模型驱动的游戏引擎,在长轨迹上高质量地与复杂环境进行实时交互。GameNGen 可以在单个 TPU 上以每秒超过 20 帧的速度交互式模拟经典游戏 DOOM,如图所示。 下一帧预测实现了 29.4 的 PSNR,与有损 JPEG 压缩相当。 人类评分者在区分游戏短片和仿真合成片段方面,仅比随机机会略胜一筹。 GameNGen 分两个阶段进行训练: (1) RL 智体学习玩游戏并记录训练过程,(2) 训练扩散模型,根据过去帧和动作的序列生成下一帧。 条件增强可在长轨迹上实现稳定的自回归生成。 如图是GameNGen和世界模型、GameGAN的比较: 电脑游戏是手工制作的软件系统,以以下游戏循环为中心: (1) 收集用户输入,(2) 更新游戏状态,(3) 将其渲染到屏幕像素。 这个以高帧率运行的
………………………………