mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

机器之心 · 公众号 · AI · 2024-10-02 10:20

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生，黄润辉为香港大学在读博士生，谭达新为诺亚方舟实验室研究员。随着 OpenAI GPT-4o 的发布，大语言模型已经不再局限于文本处理，而是向着全模态智能助手的方向发展。这篇论文提出了 EMOVA（EMotionally Omni-present Voice Assistant），一个能够同时处理图像、文本和语音模态，能看、能听、会说的多模态全能助手，并通过情感控制，拥有更加人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

3 天前

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

3 天前

爱可可-爱生活 · 【spaCy Layout：一款能够处理PDF、Word文档等多-20241119140525

4 天前

黄建同学 · 前两天ProductHunt 上的一款无代码开发应用Momen，-20241119073702

4 天前

爱可可-爱生活 · [CL]《Counterfactual Generation f-20241118060432

5 天前

爱可可-爱生活 · 本文提出了一种新的硬件和软件平台推断 (HSPI) 方法，通过分-20241117065301

6 天前

三剑客 · 政府安排的工作岗位，年薪12万！

3 月前

FM93交通之声 · 刚刚确认：她生了！

1 月前