主要观点总结
文章介绍了字节版Sora视频模型的新功能,包括Seaweed和PixelDance两款豆包视频模型,它们支持文生/图生视频,并可生成时长达10秒的视频。PixelDance模型具有多主体交互、一致性多镜头生成等特色功能。文章还介绍了PixelDance背后的技术原理,包括其采用的方法、模型结构、指令注入机制、训练策略等。此外,文章还提到了该模型在WebVid-10M等数据集上的训练情况,以及字节版Sora与其他视频模型的对比。目前该模型已在火山引擎开启企业用户的邀请测试,个人用户可在即梦AI申请内测。
关键观点总结
关键观点1: 字节版Sora推出Seaweed和PixelDance两款豆包视频模型
这两款模型支持文生/图生视频,可生成时长达10秒的视频。
关键观点2: PixelDance模型的多主体交互、一致性多镜头生成特色
PixelDance可以通过多镜头话语言能力展示多个主体的交互,同时保持主体、风格和氛围的一致性。
关键观点3: PixelDance的技术原理
PixelDance基于潜在扩散模型进行视频生成,采用广泛的2D UNet作为扩散模型,并结合文本指令和图像指令进行训练。
关键观点4: PixelDance的训练策略和数据集
团队在WebVid-10M数据集上训练了视频扩散模型,并采用了额外的无水印视频片段数据集进行联合训练。
关键观点5: 字节版Sora的发布和测试
目前字节版Sora已在火山引擎开启企业用户的邀请测试,个人用户可在即梦AI申请内测。未来将逐步开放给所有用户。
文章预览
来源 | 量子位 “不需要再等OpenAI的鸽王Sora了”。 字节版Sora终于来了,这一次还憋了个大的—— 一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。 以PixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。 啥意思??——直接来看几个官方demo。 First kill,现在手上有这样一张原图: 若使用当前大多视频模型,一般只能进行到“摘墨镜”这个环节;而PixelDance能解锁时序性多拍动作指令。(摘完墨镜还能站起来,并走向雕像) 还有类似电视剧的飙戏名场面(多个主体),各自眼神、动作,一整个拿捏。 Double kill,饱受吐槽的PPT动画有新解了。PixelDance拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力。 提示词:一名亚洲男子带着护目镜游泳,身后是另一名穿潜水服的男子 关键来了,在一致性方
………………………………