今天看啥  ›  专栏  ›  机器之心

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

机器之心  · 公众号  · AI  · 2025-02-28 12:16
    

主要观点总结

文章介绍了机器之心AIxiv专栏和一篇关于大语言模型预训练数据选择的重要论文。该论文提出了一种名为DataMan的数据管理器,用于对预训练数据进行质量评分和领域识别,以优化LLMs的预训练过程。文章详细阐述了论文的主要内容和研究成果,包括逆向反思指导质量标准、DataMan的构建和使用,以及实验设置和发现。

关键观点总结

关键观点1: 机器之心AIxiv专栏介绍

机器之心AIxiv专栏是发布学术、技术内容的栏目,数年来接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。

关键观点2: DataMan管理器介绍

DataMan是一个数据管理器,用于对预训练数据进行质量评分和领域识别。它通过14个质量评估维度全面评估预训练数据,并利用这些数据训练模型,胜率可达78.5%。

关键观点3: 论文研究内容

论文提出了“逆向思维”的概念,通过提示LLMs自我识别哪些质量标准对其性能有益来指导数据选择。研究通过大量实验验证了DataMan方法的有效性,并展示了使用DataMan选择的数据训练的模型在多个下游任务上的优异性能。

关键观点4: 实验结果

使用DataMan选择的数据训练的模型在语言建模、任务泛化能力和指令遵循能力上均表现优异,特别是在上下文学习任务中,相较于使用均匀采样的基线模型,性能得到了显著提升。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 文章全面探讨了大语言模型在预训练数据选择上的重要性,并提出了一种名为 DataMan 的数据管理器,用于对预训练数据进行质量评分和领域识别,以优化 LLMs 的预训练过程,本文由浙江大学和阿里巴巴千问团队共同完成。 在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个 数据管理器 DataMan ,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览