专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

阿里通义万相AI生视频震撼上线!更懂中国风的大模型来了

新智元  · 公众号  · AI  · 2024-09-19 17:34

主要观点总结

阿里发布了通义万相AI视频功能,包括文生视频、图生视频等,支持长文本提示词,更能理解中文的复杂语义和概念组合生成能力。该功能采用了阿里全自研的视觉大模型,使用了Diffusion+Transformer架构,能够生成高质量的视频和音频。通义万相的风格泛化能力强,可以根据风格提示词生成响应的视频画面。此外,它还具备灵感扩写功能,能够将简单的提示词扩写成忠于原意的长提示词,提升生成效果。通义万相的应用场景广泛,包括电商、广告创意、自媒体、影视/动画制作等领域。

关键观点总结

关键观点1: 通义万相AI视频功能正式开放,手机APP端使用免费,不限次数。

通义万相提供了文生视频和图生视频等多种功能,能够生成高质量的视频和音频。与其他模型相比,它更能理解中文的复杂语义和概念组合生成能力。

关键观点2: 通义万相的风格泛化能力强,可以根据风格提示词生成不同风格的视频画面。

通义万相能够根据不同风格的提示词,如3D动画风格、勾线动画风格等,生成对应风格的视频画面,带来影视级的画面质感和细节表现。

关键观点3: 通义万相具备灵感扩写功能,能够提升生成效果。

用户可以通过灵感扩写功能,将简单的提示词扩写成更丰富的长提示词,从而得到更好的生成效果。此外,通义万相的图生视频功能也令人惊喜,能够满足用户将静态图片转化为动态视频的需求。

关键观点4: 通义万相的技术背后是阿里团队全自研的视觉生成大模型,采用了业界领先的Diffusion+Transformer架构。

这种架构能够处理动态视频,为视觉内容创作带来革命性变革。此外,该模型具备出色的处理序列数据和捕捉文本上下文信息的能力,强化了中文长文本理解。


文章预览

   新智元报道   编辑:编辑部 【新智元导读】 阿里放大招了,就在刚刚,通义万相AI视频功能正式开放。5秒的视频,在手机端APP不限次数免费用!连今晚音乐节的MV都是AI直出。试用后我们惊喜地发现,更懂中国风的AI视频,它真的来了。 AI视频国内战场,阿里也下场了。 刚刚,通义万相AI生视频功能上线! 今天下午的阿里云栖大会上,CTO周靖人宣布,官网和App上都可以立刻试用了。 比起国外爆火的Sora、Gen-3 Alpha,通义万相是更能听懂中国话,更懂中国风的AI视频模型。 今晚飞天音乐节上的视频「江雪」,就是由通义万相生成的 它能够支持最长5秒视频生成,每秒30帧,分辨率为720P。更惊艳的是,它还能生成与画面匹配的音效。 这背后得到了阿里全自研的视觉大模型加持,并采用了业界领先的核心架构——Diffusion+Transformer。 划重点:手机端App ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览