如何获取高质量数据进行代码指令调优？

NLP工作站 · 公众号 · · 2024-09-10 00:00

文章预览

大家好，我是刘聪NLP。之前很多研究都是生成、发现、过滤高质量的通用指令微调数据，而大家对代码任务的越发关注，如何构建更好的代码指令调整数据也越发重要。下面给大家带来一篇筛选高质量代码指令微调数据的文章，主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样本的筛选，同时也指出了当前部分代码指令数据在HumanEval上存在严重的数据泄露。 Paper: https://arxiv.org/abs/2409.03810 Github: https://github.com/banksy23/XCoder Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K 数据筛选数据筛选过程主要从三个维度（指令复杂性、响应质量和指令多样性）从数据池中选择样本。对于一个数据池，首先使用复杂性评分器和单元测试模型来计算每个数据的复杂性评分和质量评分。然后，对复杂性评分和质量评分进行归一化得到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博