专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Sora迎来劲敌，谷歌第二代视频生成模型Veo 2亮相，最高4K分辨率

DeepTech深科技 · 公众号 · 科技媒体 · 2024-12-17 09:01

主要观点总结

本文主要介绍了谷歌 DeepMind 推出的新一代视频生成模型 Veo 2，它能生成高达 4K 分辨率和两分钟时长的视频。文章还提到 OpenAI 在同一天宣布了 ChatGPT Search 功能正式对所有用户开放。两家公司在 AI 技术领域展开竞争。谷歌还改进了 Imagen 3 图像生成模型，并推出了一款更富趣味性的图像生成工具 Whisk。

关键观点总结

关键观点1: 谷歌 DeepMind 发布新一代视频生成模型 Veo 2，支持生成最高 4K 分辨率和两分钟时长的视频。

DeepMind 放出的演示视频展示了该模型的多种应用场景，包括美食、写实养蜂场景以及梦幻虚构场景等。

关键观点2: Veo 2 在测试中击败了其他视频生成模型，包括 OpenAI Sora Turbo 等。

测试数据集是 Meta 发布的基准数据集 MovieGenBench，人类评分者对 Veo 2 的整体偏好和准确遵循提示的能力给予了高度评价。

关键观点3: Veo 2 在技术上有三个核心进步：物理引擎优化、摄影技术集成和人物表现力的提升。

这些进步使得 Veo 2 在生成视频时能够更准确地模拟现实世界，处理复杂的流体动力学效果，并提高对人物动作和面部表情的细腻表现力。

关键观点4: 谷歌还改进了 Imagen 3 图像生成模型，并推出了 Whisk 图像生成工具。

新版 Imagen 3 在艺术风格适应性、图像品质和亮度表现等方面有了显著改进。Whisk 则结合了 Imagen 3 和 Gemini 的技术，为创作者提供了更直观的创作方式。

关键观点5: 谷歌采取了安全措施来防止 AI 生成内容被滥用。

Veo 2 的每个输出视频中都嵌入了不可见的 SynthID 水印技术，这种水印能够帮助识别内容的 AI 生成属性。

文章预览

OpenAI Sora 正式发布仅仅 8 天后，最强挑战者就已经出现了。当地时间 12 月 16 日，谷歌 DeepMind 突然宣布推出第二代视频生成模型 Veo 2，支持生成最高 4K 分辨率和两分钟时长的视频，正面挑战 OpenAI Sora。（来源：谷歌 DeepMind）有意思的是，同一天的 OpenAI“十二连发 ” 活动宣布了 ChatGPT Search（网页搜索）功能正式对所有用户开放，不再需要付费。这意味着，在谷歌对 OpenAI 的 AI 生成业务发起挑战的同时，OpenAI 也在对谷歌的搜索业务发起进攻。两家都瞄准了各自最核心的业务，这足以说明在 AI 技术发展的下一波浪潮中，企业之间的竞争日趋激烈。在 DeepMind 放出的演示视频中，我们可以看到令人垂涎欲滴的美食：（来源：谷歌 DeepMind）它也可以生成写实的养蜂场景：（来源：谷歌 DeepMind）还有梦幻的虚构场景：（来源：谷歌 DeepMind）以及堪比 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博