三大AI顶流，争着“造世界”

腾讯科技 · 公众号 · 科技媒体 · 2024-12-05 19:49

主要观点总结

文章介绍了AI未来在构建数字世界方面的技术进展和三条主要技术路线。分别包括谷歌的Genie 2、OpenAI的Sora和李飞飞团队的World Labs的技术特点。文章提到，这三种技术路线各有优势，也各有局限，未来的AI世界构建需要在这些技术路线中找到恰当的融合方式。

关键观点总结

关键观点1: 谷歌发布Genie 2，实现了从静态照片到可交互3D场景的转换，虽然只能维持几十秒，但细致程度和互动流畅性都达到了新高度。

Genie 2引入了可操控的智能体，通过自回归生成实现实时响应。其场景记忆机制能维持长达一分钟的场景连贯性。但面临计算量随时间呈指数增长、误差持续累积等问题。

关键观点2: OpenAI的Sora追求视觉真实感，用扩散模型编织时空连续性。

Sora采用独特的时空扩散模型，能同时处理空间和时间维度的信息。但它需要直接生成一整个视频片段，计算量大，实时生成基本不可能。

关键观点3: World Labs专注于空间的几何精确性，用点云技术构建稳定的三维结构。

World Labs的方法能更好地保证空间的准确性和稳定性，但在处理动态变化时会受到很多限制。其构建的AI世界视觉质量和交互性相对较弱。

关键观点4: 三种技术路线各有优势，也各有局限，未来的AI世界构建需要融合这些技术路线。

融合这些技术路线需要在视觉真实性、交互自然性和空间准确性之间找到平衡。这不仅是技术上的突破，更需要我们深入思考什么是真正的数字世界。

文章预览

《AI未来指北》特约作者郝博阳编辑郑可君丨划重点 ① 2024年12月4日，谷歌发布Genie 2，实现了从静态照片到可交互3D场景的转换，虽然只能维持几十秒，但细致程度和互动流畅性都达到了新高度。 ② 当前构建数字世界有三条路线：OpenAI的Sora追求视觉真实，谷歌的Genie 2注重实时交互，World Labs专注空间准确。这三条路线各有优势，也各有无法在短期内解决的问题。 ③ 未来AI的世界构建需要在这三种技术路线中找到更恰当的融合方式，而AI生成游戏可能还有很长的路要走。 2024年12月4日，Google DeepMind默默放出了一颗重磅炸弹：一个能把静态照片变成可玩游戏的AI系统。系统名叫Genie 2，能把照片变成可探索的3D世界，用户使用键盘及鼠标输入就可以操控并完成与环境的互动。而在两天前，李飞飞的World Labs刚刚推出他们版本的世界创造模型。同 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博