EMOVA：来自华为的多模态交互智能情感化大语言模型

ADFeed · 公众号 · · 2024-10-11 11:15

文章预览

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions 介绍： https://emova-ollm.github.io/ 论文： https://arxiv.org/abs/2409.18042 EMOVA 是一个创新的多模态大型语言模型，由华为诺亚方舟实验室联合来自香港科技大、香港大学等多所高校的研究人员共同打造。它通过结合先进的视觉编码器和语义-声学分离的语音标记化技术，使得模型能够理解和生成包含丰富情感的图像、文本和语音。该模型不仅能够处理视觉和语言的双模态任务，还能够处理语音输入和输出，实现端到端的语音对话能力，从而在多模态交互领域取得了突破。 EMOVA 的关键特性是它能够通过文本作为桥梁，实现不同模态之间的有效对齐，即使在没有大量三模态（图像-文本-语音）数据的情况下也能进行全模态的对齐。此外，它还引入了一个轻量级的风格模块，使得模型能够灵活地控制语音 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

医药地理 · FDA批准首个治疗单纯性尿路感染新型口服抗生素 | 一图读懂：2025年3月下半月全球新药研发进展

昨天

国广有话说 · 上海医药2024年年报点评：CSO赋能商业稳健增长，营销转型推动工业兑现【东吴医药朱国广团队】

昨天

药渡 · 国产初创Biotech与拜耳达成出海协议，合成致死领域起风云！

2 天前

药渡 · 【明晚直播】盘点 2024国内企业license-out特点，MNC在关注什么？

2 天前

药渡 · CEO才上任两个月，公司就倒闭了？

2 天前

学术头条 · 欧洲版 OpenAI CEO：开源模型没有任何风险，我只看到了好处

7 月前

春城晚报 · 沈腾马丽小品没演完？撒贝宁眉毛谁画的？官方回应了

2 月前

撤稿资讯 · 超好用的、检出率超高的图片查重工具！收藏收藏！

1 月前