专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

开源版GPT-4o来了！腾讯开源多模态大模型VITA，支持自然人机交互

PaperWeekly · 公众号 · 科研 · 2024-10-09 23:34

文章预览

首个开源支持自然人机交互（非唤醒词交互+可打断交互，类 GPT-4o）的全能（支持视频、图片、文本和语音）多模态大语言模型。论文链接： https://arxiv.org/pdf/2408.05211 demo链接： https://vita-home.github.io/ 代码链接： https://github.com/VITA-MLLM/VITA 总览 ▲ 传统的音频交互需要预定义的唤醒词，例如每次提问时都需要说“Hi! Siri∼”，或者需要按下按钮来控制输入的音频问题（限制1）。此外，当模型生成输出时，不能支持新的查询，因为以前的系统只能依次响应输入的查询（限制2）。相比之下，VITA 在多模态交互方面做出了两项重要贡献： 1. 非唤醒交互： VITA 能够自动过滤背景噪音，如非查询的人声，因此不再需要唤醒词或按钮来激活模型。 2. 音频打断交互：如果用户在生成过程中提出另一个问题，生成过程将被暂停，模型会立即响应最新的查询。与以 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博