文章预览
作者 | 左卡 编辑 | 张洁 Runway前脚刚发布Gen-3 Alpha,Google 后脚就跟了个王炸。 北京时间6月18日凌晨,Google Deepmind发布了 视频生成音频(Video-to-Audio,V2A)技术 的进展,可以为视频创建 戏剧性的背景音乐 , 逼真的音效 ,甚至是 人物之间的对话 。 V2A技术支持 为AI生成视频“配乐” ,Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型 “Veo” 和V2A技术 合作打造 。 有不少网友表示 , 这下终于可以给用Luma生成的meme视频配上声音了! 从Google Deepmind官网发布的Blog上看,V2A技术会采用 视频像素 和 文本提示 来 生成与底层视频同步的音频波形。 首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与
………………………………