文章预览
大家好,我是刘聪NLP。 之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要。 下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样本的筛选,同时也指出了当前部分代码指令数据在HumanEval上存在严重的数据泄露。 Paper: https://arxiv.org/abs/2409.03810 Github: https://github.com/banksy23/XCoder Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K 数据筛选 数据筛选过程主要从三个维度(指令复杂性、响应质量和指令多样性)从数据池中选择样本。 对于一个数据池 ,首先使用复杂性评分器 和单元测试模型 来计算每个数据的复杂性评分 和质量评分 。然后,对复杂性评分和质量评分进行归一化得到
………………………………