今天看啥  ›  专栏  ›  特工宇宙

实测丨当 o1 pro 遇上最权威的智商测试,结果竟然是……

特工宇宙  · 公众号  ·  · 2024-12-08 20:57
    

文章预览

内容丨特工阿尔法 审核丨宇宙编辑部 前天 OpenAI 发布了最强的 o1 pro mode 模型🥳,而 pricing 随之提高到了 $200/月。🪐特工成员果断地付款后,选取了门萨IQ测试题来全面分析 o1 pro 在视觉模式识别与逻辑推理任务上的表现🔍。 门萨俱乐部(MENSA) 是世界上最大、最古老、最著名的高智商协会,拥有 10 万以上的会员,遍布世界 100 个国家。入会者申请者须通过其提供的测试(Mensa Test),以证明申请人的智商为世界前 2%。 这类测试通常由抽象的几何图形构成,通过形状、颜色、数量、方向、空间排列和变化趋势等多维度线索,考察被测者的逻辑思维与模式识别能力。 https://mensa.org/mensa-iq-challenge/ 而对于以文本预测为主的大模型而言,这无异于测试其在“非母语”情境下的推理能力,即缺乏直接视觉理解的前提下,其需通过描述的文本信息推测正确规 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览