这个首创来自中国 AI 公司，能分钟级精准控制人物的视频大模型来了 | WAIC 2024

APPSO · 公众号 · app · 2024-07-04 19:53

主要观点总结

商汤科技推出可控人物视频生成大模型——Vimi，入选世界人工智能大会最高荣誉“镇馆之宝”。Vimi通过一张照片就能生成目标动作一致的人物类视频，支持多种驱动方式。它能够实现精准的人物表情控制，自然肢体变化，稳定生成长达1分钟的单镜头人物视频，满足娱乐互动等场景需求。Vimi将完全面向C端用户开放使用，提供多种生成风格，为视频创作者提供简单、好用的创作工具。

关键观点总结

关键观点1: 商汤科技推出Vimi大模型

商汤科技打造了大模型Vimi，面向C端用户，可生成与照片目标动作一致的人物类视频。

关键观点2: Vimi的技术特点

Vimi可实现精准人物表情控制，自然肢体变化，稳定生成长达1分钟的单镜头人物视频。

关键观点3: Vimi的应用场景

Vimi满足娱乐互动等场景需求，提供多种生成风格，适用于自拍、表情包制作等。

关键观点4: Vimi的开放使用与创作者工具

Vimi将完全面向C端用户开放使用，为视频创作者提供简单、好用的创作工具。

文章预览

商汤科技又整大活了，只需一张照片就能生成一分钟视频。 7 月 4 日，由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会（WAIC）展览展示最高荣誉「镇馆之宝」，成为本届大会最具创新展品。基于商汤日日新大模型，Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。随着大模型和生成式 AI 技术的迅猛发展，让静止的照片「活」起来已不再是难事。然而，市面上现有产品在实际应用中仍存在诸多问题，如动作和表情控制不精准、效果稳定性差、视频时长受限等，这些限制了视频创作者的创作空间。为了突破这些瓶颈，商汤科技推出了可控人物视频生成大模型——Vimi。与图片表情控制类技术只能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博