主要观点总结
本文讨论了视频生成领域的最新进展,特别是Sora和生数科技在视频生成技术上的贡献。文章强调,多模态模型,特别是视频模型,具有更高的智能上限,并且Sora和生数科技在视频生成领域展现了出色的技术能力和前瞻性。生数科技通过实践和创新,实现了视频模型的多主体一致性,并验证了视频模型的通用性。作者认为,视频模型是未来智能模型的重要组成部分,并且多模态模型有潜力覆盖语言模型,实现更全面的智能。文章还探讨了创业和科研之间的差异,以及生数科技在吸引和评估人才方面的策略。作者对未来视频生成领域的发展持乐观态度,并期待更多的技术突破和创新。
关键观点总结
关键观点1: 视频生成技术的最新进展
Sora和生数科技在视频生成技术上的贡献,实现了多主体一致性和视频模型的通用性。
关键观点2: 多模态模型的潜力
多模态模型,特别是视频模型,具有更高的智能上限,并可能覆盖语言模型,实现更全面的智能。
关键观点3: 生数科技的技术实践和创新
生数科技通过实践和创新,实现了视频模型的多主体一致性,并验证了视频模型的通用性。
关键观点4: 创业与科研的差异
在学术界,研究主要关注发散,而在工业界,更多关注收敛,从众多发散成果中筛选保留有效部分。
关键观点5: 生数科技的人才策略
生数科技需要既有前沿理解又具备实际工程能力的人才,以推动技术的收敛和创新。
关键观点6: 对未来的展望
作者对未来视频生成领域的发展持乐观态度,并期待更多的技术突破和创新。
文章预览
创业公司最重要的是目标的创新与坚持。 对话|张鹏 编辑|Nico 2024 年接近尾声,这一年多模态领域最大的进展,是从年初就开始的视频生成技术的突破。 Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。 追随者众多,全球第一个交出成果的是国内大模型团队生数科技的 Vidu。随后数月,生数不断在一致性等模型性能上取得突破,近期发布的 Vidu 1.5 在全球率先突破了视频模型的多主体一致性难题,证实视频模型也有 context window,泛化能力得到验证。它通向「通用」。 事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接
………………………………