主要观点总结
本文主要介绍了AI领域的最新进展,特别是AI公司World Labs和谷歌DeepMind推出的“世界模型”。这些模型能够生成逼真的3D场景,具有交互性和自由度,可以理解真实世界的运作规律。文章还提到了这些模型的一些限制和瑕疵,并强调了训练AI的方向和素材选择对于模型效果的影响。
关键观点总结
关键观点1: AI公司World Labs推出了能直接渲染出完整3D场景的AI,这是世界上第一个具备这种能力的模型。
World Labs的创始人李飞飞是著名AI科学家,其模型可以基于输入的图片进行空间建模,并展示出交互性和自由度。尽管存在延迟和卡顿的问题,但这在行业内仍是首发。
关键观点2: 谷歌DeepMind推出了第二代“世界模型”Genie 2,号称能理解真实世界的运作规律。
Genie 2是一个类似游戏的基础世界模型,具有更流畅的操作和更高的自由度。它使用AI生成角色和交互,包括运动、射击等,并可以模拟自然环境如水面、烟雾等。尽管存在某些瑕疵,但DeepMind坦诚地表示这仍是一个早期版本。
关键观点3: 这些AI模型在理解现实世界方面的进展代表了AI领域的重大突破。
文章指出,这些模型的进步与训练AI的方向和素材选择密切相关。World Labs和DeepMind的模型之所以能够实现高度逼真的场景,是因为它们采用了不同的技术路线,特别是在素材学习和环境建模方面的创新。
文章预览
开了眼了,上周编辑部还在说下半年感觉 AI 领域没啥大活儿了,结果没过几天就发现话放早了。 宁猜怎么着,本来以为 AI 还停留在输入文字,然后出图出视频的这些程度上, 结果 这两天突然有几个 AI 公司,都开始宣布人家可以生成世界了。 我勒乖乖,这不就是 AI 界做梦都想搞出来的 “ 世界模型 ” 嘛:能像人一样理解这个真实世界的超级 AI ! 先是前几天的 World Labs ,虽然大家可能没听说过,但人家创始人可是著名 AI 科学家、斯坦福大学教授、美国科学院院士、机器学习奠基人之一、有 AI 教母之称的著名美籍华人科学家 李飞飞 。 在 World Labs 官网上说到,这是世界上第一个能直接 渲染出完整 3D 场景的 AI ,超越了传统生成模型的单纯像素预测,而且这场景还能有交互性和自由度。 说人话就是,这玩意跟以前的生图生视频模型不
………………………………