专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

我用8道变态烧脑题,测出了o1的国内最强平替

夕小瑶科技说  · 公众号  ·  · 2024-12-31 14:15
    

文章预览

我本来以为今年的模型考核就到这儿了,没想到老朋友智谱在 2024 年最后一天又整活儿了,突然就发布了 GLM 系列的类 o1 模型—— GLM-Zero-Preview 。 而且,还是保持一如既往的作风,一发布就可以调用 API,而且在网页端和 APP 端都可以免费用,非常有诚意。 但,这也不能成为逃脱咱们号无情 case 突突的理由。 但凡是被咱们逮住的重要模型发布,是骡子是马,必须要出来按咱们号的规矩遛一遛。 老规矩,先看下 GLM-Zero-Preview 的榜单表现—— 一言以蔽之,在数学(AIME2024、MATH500)、代码(LiveCodeBench)的测试基准上,以显著的优势超越 o1-preview,而在知识推理(GPQA Diamond)、逻辑推理(Zebra Logic)的测试基准上,看起来不如 o1-preview。 GLM-Zero-Preview 传送门: https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh 见智谱清言网页版左侧的「Zero 推理模型」智能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览