专栏名称: 智见AGI
神州问学公众号是围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
今天看啥  ›  专栏  ›  智见AGI

字节版Sora火爆24小时,同名论文再次被热议

智见AGI  · 公众号  ·  · 2024-09-25 18:53

主要观点总结

文章介绍了字节版Sora视频模型的新功能,包括Seaweed和PixelDance两款豆包视频模型,它们支持文生/图生视频,并可生成时长达10秒的视频。PixelDance模型具有多主体交互、一致性多镜头生成等特色功能。文章还介绍了PixelDance背后的技术原理,包括其采用的方法、模型结构、指令注入机制、训练策略等。此外,文章还提到了该模型在WebVid-10M等数据集上的训练情况,以及字节版Sora与其他视频模型的对比。目前该模型已在火山引擎开启企业用户的邀请测试,个人用户可在即梦AI申请内测。

关键观点总结

关键观点1: 字节版Sora推出Seaweed和PixelDance两款豆包视频模型

这两款模型支持文生/图生视频,可生成时长达10秒的视频。

关键观点2: PixelDance模型的多主体交互、一致性多镜头生成特色

PixelDance可以通过多镜头话语言能力展示多个主体的交互,同时保持主体、风格和氛围的一致性。

关键观点3: PixelDance的技术原理

PixelDance基于潜在扩散模型进行视频生成,采用广泛的2D UNet作为扩散模型,并结合文本指令和图像指令进行训练。

关键观点4: PixelDance的训练策略和数据集

团队在WebVid-10M数据集上训练了视频扩散模型,并采用了额外的无水印视频片段数据集进行联合训练。

关键观点5: 字节版Sora的发布和测试

目前字节版Sora已在火山引擎开启企业用户的邀请测试,个人用户可在即梦AI申请内测。未来将逐步开放给所有用户。


文章预览

来源 |  量子位 “不需要再等OpenAI的鸽王Sora了”。‍ 字节版Sora终于来了,这一次还憋了个大的—— 一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。 以PixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。 啥意思??——直接来看几个官方demo。 First kill,现在手上有这样一张原图: 若使用当前大多视频模型,一般只能进行到“摘墨镜”这个环节;而PixelDance能解锁时序性多拍动作指令。(摘完墨镜还能站起来,并走向雕像) 还有类似电视剧的飙戏名场面(多个主体),各自眼神、动作,一整个拿捏。 Double kill,饱受吐槽的PPT动画有新解了。PixelDance拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力。 提示词:一名亚洲男子带着护目镜游泳,身后是另一名穿潜水服的男子 关键来了,在一致性方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览