主要观点总结
新智元报道,谷歌在AI视频和图像生成领域取得新进展,发布了Veo 2视频生成模型、Imagen 3图像生成模型和新的创意工具Whisk。这些工具能够生成逼真的视频和图像,具有高度的真实感和细节表现能力。谷歌的这次发布为内容创作者开启了全新的可能性。
关键观点总结
关键观点1: 谷歌发布的新技术概述
谷歌发布了Veo 2视频生成模型,能够生成高分辨率、逼真的视频,理解现实世界物理和运动的细微差别,以及电影摄影语言。同时,Imagen 3图像生成模型也迎来了升级,能够生成更加明亮、构图更精准的图像。此外,谷歌还推出了一个新的创意工具Whisk,只需通过上传图片,就能定义主体、场景和风格,并重新混合创造出独特的作品。
关键观点2: Veo 2模型的特点和优势
Veo 2模型具有增强的真实感和保真度,领先的运动能力,以及更强大的相机控制选项。它能理解现实世界物理规律、人类动作和表情,以精确的方式生成运动画面。此外,Veo 2还能执行详细的指令,遵循详细指令的能力,在物理模拟过程中展现出令人惊叹的生成质量。
关键观点3: Imagen 3模型的特点和优势
Imagen 3模型在图像生成方面取得了显著进展,能够生成具有照片级写实到印象派绘画等各种艺术风格的图像。它能够精准执行用户的提示词指令,呈现出更为细腻的细节和更丰富的纹理效果。与其他顶级AI生图模型相比,Imagen 3在细节和风格表现上都取得了最优的结果。
关键观点4: Whisk的特点和用途
Whisk是一个全新的生成式AI实验性项目,它改变了以往需要冗长、详细的文字提示来生成图像的方式。现在只需通过上传图片,就能定义主体、场景和风格,并重新混合创造出独特的作品。Whisk提供了一种崭新的创意工具,让人创造性地探索各种想法,并保留自己最满意的作品。
文章预览
新智元报道 编辑:编辑部 HYZ 【新智元导读】 OpenAI的Sora翻车后,迎来谷歌的暴击:昨天深夜,Veo 2、Imagen 3、Whisk一套组合拳打来,AI视频和生图根据,再次被谷歌改变了。 就在昨天,谷歌再次爆打OpenAI。 全新发布的Veo 2,实测效果已经被许多人公认「超越Sora」。 作为谷歌最先进的视频生成模型,Veo 2更好地理解现实世界物理和运动的细微差别,理解电影摄影语言的能力(如镜头类型和效果),分辨率高达4K。 同时放出的,还有Imagen 3图像生成模型,和用图像而非文本作为prompt的工具Whisk。 无论是在LLM上,还是在视觉创作上,谷歌正在缩小和OpenAI的差距。 举个栗子,我们用相同的提示「A pair of hands skillfully slicing a ripe tomato on a wooden cutting board」生成一个切西红柿的视频。 在Veo 2中,西红柿不仅会随着刀子的前后移动而移动,并且其横断面清
………………………………