主要观点总结
本文主要介绍了智谱新推出的音效模型CogSound,该模型能够在视频生成过程中生成逼真的音效,实现音画同步。文章还提到了智谱清言的升级,包括更长时间、更高清画质和任意比例的视频生成功能。文章最后讨论了AI视频生成技术的快速发展,以及其对影视行业和新媒体生态的影响。
关键观点总结
关键观点1: 智谱推出新的音效模型CogSound,可以生成逼真的音效并与视频同步。
CogSound采用优化后的U-Net结构和分块时序对齐交叉注意力机制等技术,保证音频生成的高质量和高效率。
关键观点2: 智谱清言升级,包括生成视频时间的延长、画质提升以及支持任意比例的视频生成。
升级后的新清影可以生成更长时间、更高清的自带音效的视频,支持多种比例的视频生成。
关键观点3: AI视频生成技术的快速发展,影响影视行业和新媒体生态。
随着技术的成熟,AI视频生成将逐渐成为一个生产力工具,对影视行业和新媒体生态产生巨大冲击和机遇。
文章预览
夕小瑶科技说 原创
作者 | 夕小瑶编辑部 来,你先把手机音量打开,然后去“听”下面一段视频: 你是不是一脸懵逼?不知道我想表达什么? 视频是AI生成的并不奇怪,但你可能没法相信,这个视频的音效,也 是AI生成的。 你要是不信,可以继续听几个(音效和视频均由AI生成): 等下,这个声音配的有点怪,也可能是我喇叭坏了,换一个... 再来个动物进食的。 我天,这音效配的,不止是没把剪映放眼里,连影视行业的 音效师(Sound Designer )都要忍不住颤抖了。 这是智谱新推出的 音效模型 CogSound ,本月即将在“智谱清言”里上线。 以后啊,忘掉你的音效素材库吧。视频和音效一把儿出,只想配音也没问题(偶尔遇到翻车的甚至更有喜感,有望成为一个新的流量赛道)。 我仔细玩了下,CogSound 对于视频语义和情感有不错的理解能力,音
………………………………