今天看啥  ›  专栏  ›  AI for Research

代码预训练数据的秘密:高质量数据的定义和作用....

AI for Research  · 公众号  ·  · 2024-09-05 20:01

文章预览

前言: 科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦! 1. 代码预训练中的数据揭秘:高质量数据的定义和作用   标题: Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining   机构: 伊利诺伊大学、首尔国立大学   相关领域: 预训练、数据集构建   作者: Yuxiang Wei,  Hojae Han,  Rajhans Samdani   分析: 本文主要研究了代码预训练中的高质量数据,通过三个阶段逐步优化的数据预训练方法,提出了一种新的代码预训练模型Arctic-SnowCoder。该模型通过高质量的数据集训练,在编码任务上实现了出色的性能。文章深入探讨了高质量数据的定义和特点,对代码预训练模型的设计有重要启示。   地址: https://arxiv.org/pdf/2409.02326 2. 预训练和自训练的比较研究   标题: A Comparative Study of ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览