专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

量子位  · 公众号  · AI  · 2024-12-25 20:43
    

文章预览

白小交 发自 凹非寺 量子位 | 公众号 QbitAI 过年关啦!阿里送上了今年最后一份礼物—— “眼睛”模型QVQ ,其中V代表视觉。它只需读取图像和指令,就可以开始思考。 I’m watching you! 据介绍,这可能是全球第一个视觉推理模型,也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。 可以解决数物化生等各领域问题。 读梗图、数鸭子也不在话下。 目前该模型处于实验阶段,开放测试。 结果可能因为访问过多,网页一度还404了。 从性能表现上看,QVQ在MMMU 上的得分为 70.3,这一结果超过GPT-4o、Claude 3.5 Sonnet,但比o1模型还差了那么一点。 阿里开源首个视觉推理模型 官方给了几个演示Demo,让咱们好好感知一下它的推理能力。 首先来看这道数学题。 解题思路如下: 再来个几何题,算算这个沙发的面积。 它的推理过程如下: 高中化学题:图片 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览