专栏名称: AI范儿
AI领域四大媒体之一。 智能未来,始于Prompt!
今天看啥  ›  专栏  ›  AI范儿

Qwen 真的超越了 DeepSeek 吗?那些眼花缭乱的大模型指标到底是什么意思?

AI范儿  · 公众号  ·  · 2025-03-07 10:38
    

文章预览

随着大语言模型(LLM)的快速发展,如何准确评估其能力成为人工智能研究和应用中的核心问题。从通用知识到专业推理,从编码能力到工具调用,各种基准测试(Benchmarks)为我们提供了量化模型性能的窗口。 但我们发现,每家公司在公布自己的数据时,可能用的都是不同的指标,这让我们在对比的时候十分困难,就好比每家都拿着不同的尺子。比如我们在 DeepSeek R1 的论文里面会看到这样的图: 而到了阿里发布的 Qwen QwQ-32B又看到这样的数据: 看这个数据,Qwen-QwQ -32 似乎全面超越了 DeepSeek R1,很多媒体也这宣传,那么果真如此吗?我们还得先了解这些参数才能知道。 为此,本文将介绍这两张图里面所列的这些参数,这十个重要的大模型性能测 试基准——AIME2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-Bench Verified、LiveCodeBench、LiveBench、IFEval 和 BFCL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览