文章预览
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions 介绍: https://emova-ollm.github.io/ 论文: https://arxiv.org/abs/2409.18042 EMOVA 是一个创新的多模态大型语言模型,由华为诺亚方舟实验室联合来自香港科技大、香港大学等多所高校的研究人员共同打造。它通过结合先进的视觉编码器和语义-声学分离的语音标记化技术,使得模型能够理解和生成包含丰富情感的图像、文本和语音。 该模型不仅能够处理视觉和语言的双模态任务,还能够处理语音输入和输出,实现端到端的语音对话能力,从而在多模态交互领域取得了突破。 EMOVA 的关键特性是它能够通过文本作为桥梁,实现不同模态之间的有效对齐,即使在没有大量三模态(图像-文本-语音)数据的情况下也能进行全模态的对齐。此外,它还引入了一个轻量级的风格模块,使得模型能够灵活地控制语音
………………………………