专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

北航等提出超大规模多语言代码评测基准，涵盖40种编程语言

PaperWeekly · 公众号 · 科研 · 2024-06-15 13:14

文章预览

为了更加全面的探究大语言模型的代码能力，该工作提出了一个涵盖 40 种编程语言的大规模多语言多任务代码评测基准（McEval），包含了 16000 个测试样本。评测结果表明开源模型与 GPT-4 相比，在多语言的编程能力上仍然存在较大差距，绝大多数开源模型甚至无法超越 GPT-3.5。此外测试也表明开源模型中如 Codestral，DeepSeek-Coder，CodeQwen 以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。榜单地址： https://mceval.github.io/leaderboard.html 论文地址： https://arxiv.org/abs/2406.07436 代码地址： https://github.com/MCEVAL/McEval 360°全方位代码能力评估：摆脱HumanEval / MBPP 近年来，各种大语言模型层出不穷，这些大语言模型都在公开的测试基准如 HumanEval, MBPP 等代码榜单上展现出优异的代码能力，许多模型甚至都取得了与 GPT-4 相 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科研大匠 · 颜宁团队最新成果： 8纳米螺蛳粉！

2 天前

社会学理论大缸 · 读研读博前，先看学术圈6大“潜规则”

2 天前

PaperWeekly · 南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

3 天前

募格学术 · 博士年薪不低于23万元，提供精装公寓，协助解决配偶工作，高校引进优秀人才！

3 天前

募格学术 · 头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

5 天前

少数派 · 用苹果 HomeKit 打造全屋智能，这是我的思路与方案

5 月前

神外资讯 · 【新书推荐】《医疗中的人工智能》

3 月前

交互设计学堂 · AI这么厉害，能帮我直接出海报吗？

1 月前