专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

新智元 · 公众号 · AI · 2024-09-19 17:34

主要观点总结

阿里发布了通义万相AI视频功能，包括文生视频、图生视频等，支持长文本提示词，更能理解中文的复杂语义和概念组合生成能力。该功能采用了阿里全自研的视觉大模型，使用了Diffusion+Transformer架构，能够生成高质量的视频和音频。通义万相的风格泛化能力强，可以根据风格提示词生成响应的视频画面。此外，它还具备灵感扩写功能，能够将简单的提示词扩写成忠于原意的长提示词，提升生成效果。通义万相的应用场景广泛，包括电商、广告创意、自媒体、影视/动画制作等领域。

关键观点总结

关键观点1: 通义万相AI视频功能正式开放，手机APP端使用免费，不限次数。

通义万相提供了文生视频和图生视频等多种功能，能够生成高质量的视频和音频。与其他模型相比，它更能理解中文的复杂语义和概念组合生成能力。

关键观点2: 通义万相的风格泛化能力强，可以根据风格提示词生成不同风格的视频画面。

通义万相能够根据不同风格的提示词，如3D动画风格、勾线动画风格等，生成对应风格的视频画面，带来影视级的画面质感和细节表现。

关键观点3: 通义万相具备灵感扩写功能，能够提升生成效果。

用户可以通过灵感扩写功能，将简单的提示词扩写成更丰富的长提示词，从而得到更好的生成效果。此外，通义万相的图生视频功能也令人惊喜，能够满足用户将静态图片转化为动态视频的需求。

关键观点4: 通义万相的技术背后是阿里团队全自研的视觉生成大模型，采用了业界领先的Diffusion+Transformer架构。

这种架构能够处理动态视频，为视觉内容创作带来革命性变革。此外，该模型具备出色的处理序列数据和捕捉文本上下文信息的能力，强化了中文长文本理解。

文章预览

新智元报道编辑：编辑部【新智元导读】阿里放大招了，就在刚刚，通义万相AI视频功能正式开放。5秒的视频，在手机端APP不限次数免费用！连今晚音乐节的MV都是AI直出。试用后我们惊喜地发现，更懂中国风的AI视频，它真的来了。 AI视频国内战场，阿里也下场了。刚刚，通义万相AI生视频功能上线！今天下午的阿里云栖大会上，CTO周靖人宣布，官网和App上都可以立刻试用了。比起国外爆火的Sora、Gen-3 Alpha，通义万相是更能听懂中国话，更懂中国风的AI视频模型。今晚飞天音乐节上的视频「江雪」，就是由通义万相生成的它能够支持最长5秒视频生成，每秒30帧，分辨率为720P。更惊艳的是，它还能生成与画面匹配的音效。这背后得到了阿里全自研的视觉大模型加持，并采用了业界领先的核心架构——Diffusion+Transformer。划重点：手机端App ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博