专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

新智元 · 公众号 · AI · 2025-03-17 19:20

文章预览

新智元报道编辑：LRST 【新智元导读】近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。近年来，大模型层出不穷，令人目不暇接。为更好理解大模型的能力，许多评测集（Benchmarks）应运而生。然而，这些评测集的质量常常受到质疑：标准答案出错、指令模糊或错误、题目重复、数据泄漏等。那么，代码评测集的现状究竟如何？为了回答这个问题，由香港科技大学牵头，联合香港中文大学、中山大学等多所机构，耗费近一年时间，深入调研了过去10 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 解耦探索与学习：LLM强化学习的新范式查看图片 //@爱可可-20250330070828

昨天

黄建同学 · Three.js 最新发布的 r175 能实现的效果↓这意味这A-20250330080041

昨天

爱可可-爱生活 · 【[443星]mcp-framework：用TypeScript-20250329192315

2 天前

人工智能那点事 · 超2万个岗位！微信上线新功能

2 天前

黄建同学 · 先mark。从头开始学习人工智能的十大技术含量高的 YouTub-20250329134621

2 天前

影视工业网 · 全新猎影SDI电子寻像器，重磅来袭

8 月前

法治时间 · 石家庄市2025年度“花王”脱颖而出

2 月前

中国基金报 · 中国和乌克兰，签了！

3 周前