文章预览
看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!阿里国际AI团队发布了一款 多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。 多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。 根据多模态权威综合评测平台OpenCompass的数据, Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,赶超MiniCPM-V-2.6等行业优秀大模型 。 Ovis在OpenCompass上的测评数据情况 据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准
………………………………