专栏名称: NLP工作站
AIGC前沿知识分享&落地经验总结
今天看啥  ›  专栏  ›  NLP工作站

如何获取高质量数据进行代码指令调优?

NLP工作站  · 公众号  ·  · 2024-09-10 00:00

文章预览

大家好,我是刘聪NLP。 之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要。 下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样本的筛选,同时也指出了当前部分代码指令数据在HumanEval上存在严重的数据泄露。 Paper: https://arxiv.org/abs/2409.03810 Github: https://github.com/banksy23/XCoder Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K 数据筛选 数据筛选过程主要从三个维度(指令复杂性、响应质量和指令多样性)从数据池中选择样本。 对于一个数据池 ,首先使用复杂性评分器 和单元测试模型 来计算每个数据的复杂性评分 和质量评分 。然后,对复杂性评分和质量评分进行归一化得到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览