一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习自然语言处理

实现一个简洁的代码模型评测框架(以Qwen2.5-coder 评测Humaneval为例)

深度学习自然语言处理  · 公众号  ·  · 2024-09-21 17:42

文章预览

知乎:KaiH 链接:https://zhuanlan.zhihu.com/p/721218072 代码大模型在评测时主要用到的指标就是 了,特别是在 测试集上。各个模型在其发布时也都给出了指标,使用的一些开源代码评测框架感觉都比较复杂,所以准备做一个简洁的评测框架,下面我们进行全部代码流程的构建。 整体框架可以分四部分, 、 、 、 模块。构建完四部分后进行组合即可完成一个简洁的代码模型评测框架。为了便于扩展更多的评测集,所以本框架中每个任务都新建了一个 文件,文件中的类继承自 中的 基类,根据不同评测集的不同方法进行前处理与后处理。 代码模型评测框架简介 框架已上传至 ,可以进行使用,非常方便与简洁: 代码评测框架 https://github.com/mst272/LLM-Dojo/tree/main/evaluate 快速开始 运行 文件可以快速开始: MODELS_PATH= "/qwen" LOGS_PATH= "./logs.jsonl" OUT_PATH= './out.jsonl' MET ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览