今天看啥  ›  专栏  ›  Hugging Face

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

Hugging Face  · 公众号  ·  · 2024-07-01 10:30

文章预览

HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估 LLM 编程能力方面的有效性越来越多的担忧,主要问题是 HumanEval 中的任务太简单,可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务,真实世界的软件开发通常涉及多样的库和函数调用。此外,LLM 在 HumanEval 上的表现还受 污染和过拟合问题 的影响,这使得其在评估 LLM 的泛化能力方面不够可靠。 HumanEval https://github.com/openai/human-eval 污染和过拟合问题 https://arxiv.org/abs/2403.07974 虽然已经有一些努力来解决这些问题,但它们要么是特定领域的、确定性的,要么是以大模型代理为中心的 (抱歉, DS-1000 、 ODEX 和 SWE-bench 💔)。我们觉得社区仍然缺乏一个可以广泛评估 LLM 编程能力的易用基准 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览