主要观点总结
商汤科技推出可控人物视频生成大模型——Vimi,入选世界人工智能大会最高荣誉“镇馆之宝”。Vimi通过一张照片就能生成目标动作一致的人物类视频,支持多种驱动方式。它能够实现精准的人物表情控制,自然肢体变化,稳定生成长达1分钟的单镜头人物视频,满足娱乐互动等场景需求。Vimi将完全面向C端用户开放使用,提供多种生成风格,为视频创作者提供简单、好用的创作工具。
关键观点总结
关键观点1: 商汤科技推出Vimi大模型
商汤科技打造了大模型Vimi,面向C端用户,可生成与照片目标动作一致的人物类视频。
关键观点2: Vimi的技术特点
Vimi可实现精准人物表情控制,自然肢体变化,稳定生成长达1分钟的单镜头人物视频。
关键观点3: Vimi的应用场景
Vimi满足娱乐互动等场景需求,提供多种生成风格,适用于自拍、表情包制作等。
关键观点4: Vimi的开放使用与创作者工具
Vimi将完全面向C端用户开放使用,为视频创作者提供简单、好用的创作工具。
文章预览
商汤科技又整大活了,只需一张照片就能生成一分钟视频。 7 月 4 日,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会(WAIC)展览展示最高荣誉「镇馆之宝」,成为本届大会最具创新展品。 基于商汤日日新大模型,Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。 随着大模型和生成式 AI 技术的迅猛发展,让静止的照片「活」起来已不再是难事。 然而,市面上现有产品在实际应用中仍存在诸多问题,如动作和表情控制不精准、效果稳定性差、视频时长受限等,这些限制了视频创作者的创作空间。 为了突破这些瓶颈,商汤科技推出了可控人物视频生成大模型——Vimi。 与图片表情控制类技术只能
………………………………