专栏名称: ADFeed
🧠 AI DevFeed:AI 技术研习与产业观察。
今天看啥  ›  专栏  ›  ADFeed

UniMuMo:跨模态统一的音乐、动作和文本生成模型

ADFeed  · 公众号  ·  · 2024-10-11 11:15
    

文章预览

UniMuMo: Unified Text, Music and Motion Generation 介绍: https://hanyangclarence.github.io/unimumo_demo/ 代码: https://github.com/hanyangclarence/UniMuMo 论文: https://arxiv.org/abs/2410.04534 UniMuMo  是一种创新的多模态模型,旨在理解和生成音乐、动作和文本之间的内容。它通过将这三种模态的数据统一到一个编码器-解码器框架中,实现了跨模态的理解和创造。UniMuMo 的关键特性是能够处理任意组合的输入和输出任务,例如,可以根据文本描述生成相应的音乐和舞蹈动作,或者根据音乐创作匹配的舞蹈动作。 该模型通过利用音乐和动作数据之间的节奏模式对齐,解决了缺乏时间同步多模态数据的问题。此外,UniMuMo通过引入音乐动作并行生成方案,将音乐和动作的生成任务统一到单一的变换器解码器架构中,从而简化了模型的训练和部署。它还通过微调现有的预训练单模态模型来减 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览