注册登录

专栏名称: AI范儿

AI领域四大媒体之一。智能未来，始于Prompt！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

目录

相关文章推荐

Excel之家ExcelHome · 计算员工转正日期，你是哪种青年？ · 昨天

贵州省通信管理局 · 贵州省通信管理局赴黔西南州开展信息通信业安全 ... · 昨天

贵州省通信管理局 · 贵州省通信管理局赴黔西南州开展信息通信业安全 ... · 昨天

今天看啥 › 专栏 › AI范儿

Qwen 真的超越了 DeepSeek 吗？那些眼花缭乱的大模型指标到底是什么意思？

AI范儿 · 公众号 · · 2025-03-07 10:38

文章预览

随着大语言模型（LLM）的快速发展，如何准确评估其能力成为人工智能研究和应用中的核心问题。从通用知识到专业推理，从编码能力到工具调用，各种基准测试（Benchmarks）为我们提供了量化模型性能的窗口。但我们发现，每家公司在公布自己的数据时，可能用的都是不同的指标，这让我们在对比的时候十分困难，就好比每家都拿着不同的尺子。比如我们在 DeepSeek R1 的论文里面会看到这样的图：而到了阿里发布的 Qwen QwQ-32B又看到这样的数据：看这个数据，Qwen-QwQ -32 似乎全面超越了 DeepSeek R1，很多媒体也这宣传，那么果真如此吗？我们还得先了解这些参数才能知道。为此，本文将介绍这两张图里面所列的这些参数，这十个重要的大模型性能测试基准——AIME2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-Bench Verified、LiveCodeBench、LiveBench、IFEval 和 BFCL ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

Excel之家ExcelHome · 计算员工转正日期，你是哪种青年？

昨天

贵州省通信管理局 · 贵州省通信管理局赴黔西南州开展信息通信业安全生产综合督导检查

昨天

贵州省通信管理局 · 贵州省通信管理局赴黔西南州开展信息通信业安全生产综合督导检查

昨天

最搞笑笑话王 · 26岁妈妈摆摊卖猪肉因样貌出众走红

11 月前

深圳吃货小分队 · 巨型「唐老鸭」，来深圳了

9 月前

银创智库 · 【通讯录】10月热门行业通讯录推荐！商机等你对接

6 月前

银创智库 · 【通讯录】10月热门行业通讯录推荐！商机等你对接

6 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号