专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

大模型特定领域持续预训练缩放法则 | 学习无关数据集训练价值估计 | 微软:大模型的自动指令进化

AI for Research  · 公众号  ·  · 2024-06-04 20:59
    

文章预览

前言: 科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦! 1. D-CPT Law:针对大模型的领域特定持续预训练缩放法则   标题: D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models   机构: 滑铁卢大学、阿里巴巴集团、曼彻斯特大学   关键词: 持续预训练、缩放法则、领域特定   作者: Haoran Que,  Jiaheng Liu,  Ge Zhang   分析: 本文主要探讨了在特定领域(如数学和编程)中对大模型进行持续预训练(CPT)时,如何选择通用语料库(如Dolma, Slim-pajama)与下游领域语料库之间的最优混合比例。传统方法依赖于耗时且成本高昂的人工网格搜索,无法保证所选比例在特定领域的最优性。为此,本文借鉴了性能预测的缩放法则,提出了针对领域特定持续预训练的缩放法则(D ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览