注册登录

专栏名称: Hugging Face

The AI community building the future.

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

康石石 · 红点、iF、A’design、MUSE投递有 ... · 9 小时前

康石石 · 25年QS艺术设计排名公布！清华10连跳登顶 ... · 22 小时前

康石石 · 录取率跌破5%的哈佛、哥大、耶鲁offer， ... · 2 天前

安徽商报 · 安徽夯实江淮粮仓“耕基” · 2 天前

今天看啥 › 专栏 › Hugging Face

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

Hugging Face · 公众号 · · 2024-07-01 10:30

文章预览

HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧，主要问题是 HumanEval 中的任务太简单，可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务，真实世界的软件开发通常涉及多样的库和函数调用。此外，LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响，这使得其在评估 LLM 的泛化能力方面不够可靠。 HumanEval https://github.com/openai/human-eval 污染和过拟合问题 https://arxiv.org/abs/2403.07974 虽然已经有一些努力来解决这些问题，但它们要么是特定领域的、确定性的，要么是以大模型代理为中心的 (抱歉， DS-1000 、 ODEX 和 SWE-bench 💔)。我们觉得社区仍然缺乏一个可以广泛评估 LLM 编程能力的易用基准 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

康石石 · 红点、iF、A’design、MUSE投递有这么大区别呢？

9 小时前

康石石 · 25年QS艺术设计排名公布！清华10连跳登顶亚洲，央美跌出全球TOP20

22 小时前

康石石 · 录取率跌破5%的哈佛、哥大、耶鲁offer，是怎么拿到的：

2 天前

安徽商报 · 安徽夯实江淮粮仓“耕基”

2 天前

中国工商银行信用卡 · 【爱购6•18优惠季】工银爱享礼6月上新！

9 月前

PCEC 可持续发展服务 · 专业视角 | 2025检测检验行业：航向何方，如何破局前行？

1 月前

36氪 · 迪士尼日子不好过了

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号