文章预览
面向计算机科学的LLM综合测试基准 论文题目: CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery 论文地址: https://arxiv.org/abs/2406.08587 项目主页 : https://csbench.github.io/ 代码 & 数据地址: https://github.com/csbench/csbench 引言 计算机科学深刻地推动了人类社会和人工智能的发展。然而,当前的大型语言模型(LLMs)评估要么只将计算机科学作为众多评估学科中的很小一环(如C-Eval,MMLU),要么只专注于LLMs在计算机科学中的某项具体应用(如网络拓扑、代码生成),LLMs在计算机科学中的知识掌握和推理能力尚未得到全面评估。 为了弥补这一差距,北京邮电大学PRIS-nlp实验室团队提出了 CS-Bench ,这是第一个 专注于评估LLM在计算机科学领域性能 的测试基准。CS-Bench支持中英双语,包含了约5K条精心处理的样本,覆盖CS的4个关键领域下的26个
………………………………