专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

新智元 · 公众号 · AI · 2024-12-17 12:46

主要观点总结

新智元报道，谷歌在AI视频和图像生成领域取得新进展，发布了Veo 2视频生成模型、Imagen 3图像生成模型和新的创意工具Whisk。这些工具能够生成逼真的视频和图像，具有高度的真实感和细节表现能力。谷歌的这次发布为内容创作者开启了全新的可能性。

关键观点总结

关键观点1: 谷歌发布的新技术概述

谷歌发布了Veo 2视频生成模型，能够生成高分辨率、逼真的视频，理解现实世界物理和运动的细微差别，以及电影摄影语言。同时，Imagen 3图像生成模型也迎来了升级，能够生成更加明亮、构图更精准的图像。此外，谷歌还推出了一个新的创意工具Whisk，只需通过上传图片，就能定义主体、场景和风格，并重新混合创造出独特的作品。

关键观点2: Veo 2模型的特点和优势

Veo 2模型具有增强的真实感和保真度，领先的运动能力，以及更强大的相机控制选项。它能理解现实世界物理规律、人类动作和表情，以精确的方式生成运动画面。此外，Veo 2还能执行详细的指令，遵循详细指令的能力，在物理模拟过程中展现出令人惊叹的生成质量。

关键观点3: Imagen 3模型的特点和优势

Imagen 3模型在图像生成方面取得了显著进展，能够生成具有照片级写实到印象派绘画等各种艺术风格的图像。它能够精准执行用户的提示词指令，呈现出更为细腻的细节和更丰富的纹理效果。与其他顶级AI生图模型相比，Imagen 3在细节和风格表现上都取得了最优的结果。

关键观点4: Whisk的特点和用途

Whisk是一个全新的生成式AI实验性项目，它改变了以往需要冗长、详细的文字提示来生成图像的方式。现在只需通过上传图片，就能定义主体、场景和风格，并重新混合创造出独特的作品。Whisk提供了一种崭新的创意工具，让人创造性地探索各种想法，并保留自己最满意的作品。

文章预览

新智元报道编辑：编辑部 HYZ 【新智元导读】 OpenAI的Sora翻车后，迎来谷歌的暴击：昨天深夜，Veo 2、Imagen 3、Whisk一套组合拳打来，AI视频和生图根据，再次被谷歌改变了。就在昨天，谷歌再次爆打OpenAI。全新发布的Veo 2，实测效果已经被许多人公认「超越Sora」。作为谷歌最先进的视频生成模型，Veo 2更好地理解现实世界物理和运动的细微差别，理解电影摄影语言的能力（如镜头类型和效果），分辨率高达4K。同时放出的，还有Imagen 3图像生成模型，和用图像而非文本作为prompt的工具Whisk。无论是在LLM上，还是在视觉创作上，谷歌正在缩小和OpenAI的差距。举个栗子，我们用相同的提示「A pair of hands skillfully slicing a ripe tomato on a wooden cutting board」生成一个切西红柿的视频。在Veo 2中，西红柿不仅会随着刀子的前后移动而移动，并且其横断面清 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博