文章预览
UniMuMo: Unified Text, Music and Motion Generation 介绍: https://hanyangclarence.github.io/unimumo_demo/ 代码: https://github.com/hanyangclarence/UniMuMo 论文: https://arxiv.org/abs/2410.04534 UniMuMo 是一种创新的多模态模型,旨在理解和生成音乐、动作和文本之间的内容。它通过将这三种模态的数据统一到一个编码器-解码器框架中,实现了跨模态的理解和创造。UniMuMo 的关键特性是能够处理任意组合的输入和输出任务,例如,可以根据文本描述生成相应的音乐和舞蹈动作,或者根据音乐创作匹配的舞蹈动作。 该模型通过利用音乐和动作数据之间的节奏模式对齐,解决了缺乏时间同步多模态数据的问题。此外,UniMuMo通过引入音乐动作并行生成方案,将音乐和动作的生成任务统一到单一的变换器解码器架构中,从而简化了模型的训练和部署。它还通过微调现有的预训练单模态模型来减
………………………………