专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

北航等提出超大规模多语言代码评测基准,涵盖40种编程语言

PaperWeekly  · 公众号  · 科研  · 2024-06-15 13:14
    

文章预览

为了更加全面的探究大语言模型的代码能力,该工作提出了一个涵盖 40 种编程语言的大规模多语言多任务代码评测基准(McEval),包含了 16000 个测试样本。评测结果表明开源模型与 GPT-4 相比,在多语言的编程能力上仍然存在较大差距,绝大多数开源模型甚至无法超越 GPT-3.5。此外测试也表明开源模型中如 Codestral,DeepSeek-Coder,CodeQwen 以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。 榜单地址: https://mceval.github.io/leaderboard.html 论文地址: https://arxiv.org/abs/2406.07436 代码地址: https://github.com/MCEVAL/McEval 360°全方位代码能力评估:摆脱HumanEval / MBPP 近年来,各种大语言模型层出不穷,这些大语言模型都在公开的测试基准如 HumanEval, MBPP 等代码榜单上展现出优异的代码能力,许多模型甚至都取得了与 GPT-4 相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览