专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

新智元  · 公众号  · AI  · 2025-03-17 19:20
    

文章预览

   新智元报道   编辑:LRST 【新智元导读】 近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。 近年来,大模型层出不穷,令人目不暇接。为更好理解大模型的能力,许多评测集(Benchmarks)应运而生。 然而,这些评测集的质量常常受到质疑:标准答案出错、指令模糊或错误、题目重复、数据泄漏等。 那么,代码评测集的现状究竟如何? 为了回答这个问题,由香港科技大学牵头,联合香港中文大学、中山大学等多所机构,耗费近一年时间,深入调研了过去10 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览