字节版Sora火爆24小时，同名论文再次被热议

智见AGI · 公众号 · · 2024-09-25 18:53

主要观点总结

文章介绍了字节版Sora视频模型的新功能，包括Seaweed和PixelDance两款豆包视频模型，它们支持文生/图生视频，并可生成时长达10秒的视频。PixelDance模型具有多主体交互、一致性多镜头生成等特色功能。文章还介绍了PixelDance背后的技术原理，包括其采用的方法、模型结构、指令注入机制、训练策略等。此外，文章还提到了该模型在WebVid-10M等数据集上的训练情况，以及字节版Sora与其他视频模型的对比。目前该模型已在火山引擎开启企业用户的邀请测试，个人用户可在即梦AI申请内测。

关键观点总结

关键观点1: 字节版Sora推出Seaweed和PixelDance两款豆包视频模型

这两款模型支持文生/图生视频，可生成时长达10秒的视频。

关键观点2: PixelDance模型的多主体交互、一致性多镜头生成特色

PixelDance可以通过多镜头话语言能力展示多个主体的交互，同时保持主体、风格和氛围的一致性。

关键观点3: PixelDance的技术原理

PixelDance基于潜在扩散模型进行视频生成，采用广泛的2D UNet作为扩散模型，并结合文本指令和图像指令进行训练。

关键观点4: PixelDance的训练策略和数据集

团队在WebVid-10M数据集上训练了视频扩散模型，并采用了额外的无水印视频片段数据集进行联合训练。

关键观点5: 字节版Sora的发布和测试

目前字节版Sora已在火山引擎开启企业用户的邀请测试，个人用户可在即梦AI申请内测。未来将逐步开放给所有用户。

文章预览

来源 | 量子位 “不需要再等OpenAI的鸽王Sora了”。‍ 字节版Sora终于来了，这一次还憋了个大的—— 一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例，其最大特色在于多主体交互，一致性多镜头生成。啥意思？？——直接来看几个官方demo。 First kill，现在手上有这样一张原图：若使用当前大多视频模型，一般只能进行到“摘墨镜”这个环节；而PixelDance能解锁时序性多拍动作指令。（摘完墨镜还能站起来，并走向雕像）还有类似电视剧的飙戏名场面（多个主体），各自眼神、动作，一整个拿捏。 Double kill，饱受吐槽的PPT动画有新解了。PixelDance拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力。提示词：一名亚洲男子带着护目镜游泳，身后是另一名穿潜水服的男子关键来了，在一致性方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博