专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

开源版GPT-4o来了!腾讯开源多模态大模型VITA,支持自然人机交互

PaperWeekly  · 公众号  · 科研  · 2024-10-09 23:34

文章预览

首个开源支持自然人机交互(非唤醒词交互+可打断交互,类 GPT-4o)的全能(支持视频、图片、文本和语音)多模态大语言模型。 论文链接: https://arxiv.org/pdf/2408.05211 demo链接: https://vita-home.github.io/ 代码链接: https://github.com/VITA-MLLM/VITA 总览 ▲ 传统的音频交互需要预定义的唤醒词,例如每次提问时都需要说“Hi! Siri∼”,或者需要按下按钮来控制输入的音频问题(限制1)。此外,当模型生成输出时,不能支持新的查询,因为以前的系统只能依次响应输入的查询(限制2)。相比之下,VITA 在多模态交互方面做出了两项重要贡献: 1. 非唤醒交互: VITA 能够自动过滤背景噪音,如非查询的人声,因此不再需要唤醒词或按钮来激活模型。 2. 音频打断交互 : 如果用户在生成过程中提出另一个问题,生成过程将被暂停,模型会立即响应最新的查询。与以 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览