UniMuMo：跨模态统一的音乐、动作和文本生成模型

ADFeed · 公众号 · · 2024-10-11 11:15

文章预览

UniMuMo: Unified Text, Music and Motion Generation 介绍： https://hanyangclarence.github.io/unimumo_demo/ 代码： https://github.com/hanyangclarence/UniMuMo 论文： https://arxiv.org/abs/2410.04534 UniMuMo 是一种创新的多模态模型，旨在理解和生成音乐、动作和文本之间的内容。它通过将这三种模态的数据统一到一个编码器-解码器框架中，实现了跨模态的理解和创造。UniMuMo 的关键特性是能够处理任意组合的输入和输出任务，例如，可以根据文本描述生成相应的音乐和舞蹈动作，或者根据音乐创作匹配的舞蹈动作。该模型通过利用音乐和动作数据之间的节奏模式对齐，解决了缺乏时间同步多模态数据的问题。此外，UniMuMo通过引入音乐动作并行生成方案，将音乐和动作的生成任务统一到单一的变换器解码器架构中，从而简化了模型的训练和部署。它还通过微调现有的预训练单模态模型来减 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人生研究所 · 首饰尽头是珍珠！故宫紫禁文创出品，一眼惊艳！自戴送礼两不误！

昨天

中国电力企业联合会 · 中电联关于举办2024年燃煤电站生产运营管理第五十三届年会暨能效管理对标发布会的通知

8 月前

深圳Book · “年末了，去趟澳门吧！深圳出发1H直达的那种”

2 月前

特工宇宙 · AI 打工我躺平｜第 0 届 AutoGLM 应用创意挑战赛！

1 月前

之江全知道 · 商转住、住转公园…浦沿两宗地块性质调整！将建设保障性住房项目

2 周前