阿里通义千问Qwen CodeElo测试：o1-mini编程力超九成人类程序员

老马那些事 · 公众号 · · 2025-01-04 17:00

文章预览

近日，阿里巴巴旗下的通义千问Qwen团队推出了一个名为CodeElo的基准测试，该测试旨在通过Elo评级系统，对比大语言模型（LLM）与人类程序员的编程能力。在AI应用场景中，大语言模型的一个关键应用是代码生成与补全。然而，在评估LLM编程能力的真实性方面，业界面临着诸多挑战。现有的基准测试，如LiveCodeBench和USACO，都存在明显的局限性，如缺乏健壮的私有测试用例、不支持专门的判断系统，以及执行环境不一致等问题。 CodeElo基准测试的核心优势在于其全面性、稳健性和标准化。在题目选择上，CodeElo涵盖了广泛的比赛分区、难度级别和算法标签，为LLM提供了全面的评估。在评估方法上，CodeElo利用CodeForces平台的特殊评估机制，确保了对代码准确性的判断，避免了误报等问题，并支持需要特殊评判机制的题目。在评级计算上，CodeElo采用Elo评级 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

凤凰游戏 · 限时闪促优惠不停！更有福袋、中签池任你选购

昨天

游戏研究社 · 全球发行后，《三角洲行动》让玩惯了射击的老外也开了眼

3 天前

囧囧搞笑笑话 · 人类幼崽的神操作！

9 月前

股道热肠也 · 转发微博-20250307220443

1 月前

DataEye短剧观察 · DataEye红果热榜：女频碾压，奇幻元素崛起？王凯沐新剧飙升，又见傅总上榜！

2 周前

DataEye短剧观察 · DataEye红果热榜：女频碾压，奇幻元素崛起？王凯沐新剧飙升，又见傅总上榜！

2 周前