文章预览
腾讯优图实验室联合南京大学、 厦门大学和中国科学院自动化研究所推出了VITA,一个开源的多模态大型语言模型。该模型擅长同时处理和分析视频、图像、文本和音频模态,并通过非唤醒交互和音频中断交互实现先进的多模态交互体验。 作者表示:所有训练代码、部署代码和模型权重即将发布!已经提交了开源代码,但还在进行内部审查。 VITA 3个月前,OpenAI发布最新的大模型GPT4-o,支持听、看、说,全程丝滑的想在和真人互动。 VITA 全方位的对标 GPT4-o,具体内容如下所示: 1、实时和大模型语言交互(例如询问,当前视频内容中主体所处的环境;询问传递建议等) 2、实时视频交互,给大模型展示一道数学题,让大模型帮忙解答(同时demo中也展示了sony的耳机以及一本书等,让大模型回答,都争取回复) 3、实时让让AI变换语音回复的音色 更多
………………………………