CS-Bench|面向计算机科学的LLM综合测试基准

李rumor · 公众号 · · 2024-07-11 09:18

文章预览

面向计算机科学的LLM综合测试基准论文题目： CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery 论文地址： https://arxiv.org/abs/2406.08587 项目主页： https://csbench.github.io/ 代码 & 数据地址： https://github.com/csbench/csbench 引言计算机科学深刻地推动了人类社会和人工智能的发展。然而，当前的大型语言模型（LLMs）评估要么只将计算机科学作为众多评估学科中的很小一环（如C-Eval，MMLU），要么只专注于LLMs在计算机科学中的某项具体应用（如网络拓扑、代码生成），LLMs在计算机科学中的知识掌握和推理能力尚未得到全面评估。为了弥补这一差距，北京邮电大学PRIS-nlp实验室团队提出了 CS-Bench ,这是第一个专注于评估LLM在计算机科学领域性能的测试基准。CS-Bench支持中英双语，包含了约5K条精心处理的样本，覆盖CS的4个关键领域下的26个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博