专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

@AIatMeta 的电影生成音频模型注释: 用于视频/文本到音-20241005092639

斌叔OKmath  · 微博  ·  · 2024-10-05 09:26

文章预览

2024-10-05 09:26 本条微博链接 @AIatMeta 的电影生成音频模型注释: 用于视频/文本到音频合成的 13B 参数模型 生成 48kHz 电影音频,与视觉输入同步,处理可变长度 学习视听关联,创造叙事/非叙事声音和音乐以增强真实感 对精选数据进行 SFT 可提高质量,重点关注电影风格 使用单一模型生成和扩展音频,为长度不等的视频生成音频,最长可达 30 秒 采用蒙版音频预测来处理不同的音频上下文,包括生成、扩展和填充 利 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览