文章预览
首个开源支持自然人机交互(非唤醒词交互+可打断交互,类 GPT-4o)的全能(支持视频、图片、文本和语音)多模态大语言模型。 论文链接: https://arxiv.org/pdf/2408.05211 demo链接: https://vita-home.github.io/ 代码链接: https://github.com/VITA-MLLM/VITA 总览 ▲ 传统的音频交互需要预定义的唤醒词,例如每次提问时都需要说“Hi! Siri∼”,或者需要按下按钮来控制输入的音频问题(限制1)。此外,当模型生成输出时,不能支持新的查询,因为以前的系统只能依次响应输入的查询(限制2)。相比之下,VITA 在多模态交互方面做出了两项重要贡献: 1. 非唤醒交互: VITA 能够自动过滤背景噪音,如非查询的人声,因此不再需要唤醒词或按钮来激活模型。 2. 音频打断交互 : 如果用户在生成过程中提出另一个问题,生成过程将被暂停,模型会立即响应最新的查询。与以
………………………………