我用8道变态烧脑题，测出了o1的国内最强平替

夕小瑶科技说 · 公众号 · · 2024-12-31 14:15

文章预览

我本来以为今年的模型考核就到这儿了，没想到老朋友智谱在 2024 年最后一天又整活儿了，突然就发布了 GLM 系列的类 o1 模型—— GLM-Zero-Preview 。而且，还是保持一如既往的作风，一发布就可以调用 API，而且在网页端和 APP 端都可以免费用，非常有诚意。但，这也不能成为逃脱咱们号无情 case 突突的理由。但凡是被咱们逮住的重要模型发布，是骡子是马，必须要出来按咱们号的规矩遛一遛。老规矩，先看下 GLM-Zero-Preview 的榜单表现—— 一言以蔽之，在数学（AIME2024、MATH500）、代码（LiveCodeBench）的测试基准上，以显著的优势超越 o1-preview，而在知识推理（GPQA Diamond）、逻辑推理（Zebra Logic）的测试基准上，看起来不如 o1-preview。 GLM-Zero-Preview 传送门： https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh 见智谱清言网页版左侧的「Zero 推理模型」智能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博