专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI for Research

如何提高代码LLM的表现?基于高质量数据强化的代码指令微调 | Open-MAGVIT2:一种向自动回归视觉生成的开源项目...

AI for Research  · 公众号  ·  · 2024-09-09 23:38

文章预览

前言: 如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”! 1. 如何提高代码LLM的表现?利用高质量数据强化代码指令微调   标题: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data   关键词: 代码LLM、指令微调、数据质量、XCoder   作者: Yejie Wang,  Keqing He,  Dayuan Fu   分析: 这篇论文主要研究如何构建更好的代码指令微调数据集。研究发现,虽然某些数据集在HumanEval上表现良好,但在LiveCodeBench等基准测试中表现不佳。这表明许多数据集存在严重的数据泄露问题。为了解决这个问题,论文提出了一个有效的代码数据剪枝策略,基于指令复杂性、响应质量和指令多样性三个维度选取样本。通过所选数据,作者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览