文章预览
夕小瑶科技说 原创
作者 | 谢年年 腾讯最近的多模态进展有点子“一路高歌”,先是腾讯元宝升级了一波多模态能力,就差把GPT-4o从榜一拉下来了。 最近,又 搞了一个和GPT-4o对标的交互式多模态模型——VITA,而且率先开源了 。 每次使用Siri时,都得先说个唤醒词,比如“Hi! Siri”,或者按个按钮才能开始说话。而且,当机器在回答用户提问的时候,用户就不能继续提问了,因为它只能按顺序处理输入。 这次,腾讯提出了VITA,打破了这一限制! “VITA”看这名字就知道,其能够同时处理和分析 Video(视频)、Image(图像)、Text(文本) 和 Audio(音频)。VITA不仅具备强大的多语言、视觉和音频理解基础能力,在各种单模态和多模态基准测试中表现强劲。更重要的是,VITA带来了两个超棒的改进: 无需唤醒的交互 :VITA很聪明,能自动忽略周围
………………………………