专栏名称: 老马那些事
我们只关注与马云有关资讯,全面解读马云投资、融资、并购等动态,以及有关于马云从创业到阿里帝国的历程。
今天看啥  ›  专栏  ›  老马那些事

阿里通义千问Qwen CodeElo测试:o1-mini编程力超九成人类程序员

老马那些事  · 公众号  ·  · 2025-01-04 17:00
    

文章预览

近日,阿里巴巴旗下的通义千问Qwen团队推出了一个名为CodeElo的基准测试,该测试旨在通过Elo评级系统,对比大语言模型(LLM)与人类程序员的编程能力。 在AI应用场景中,大语言模型的一个关键应用是代码生成与补全。然而,在评估LLM编程能力的真实性方面,业界面临着诸多挑战。现有的基准测试,如LiveCodeBench和USACO,都存在明显的局限性,如缺乏健壮的私有测试用例、不支持专门的判断系统,以及执行环境不一致等问题。 CodeElo基准测试的核心优势在于其全面性、稳健性和标准化。在题目选择上,CodeElo涵盖了广泛的比赛分区、难度级别和算法标签,为LLM提供了全面的评估。在评估方法上,CodeElo利用CodeForces平台的特殊评估机制,确保了对代码准确性的判断,避免了误报等问题,并支持需要特殊评判机制的题目。在评级计算上,CodeElo采用Elo评级 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览