专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

Llama-3-SynE:实现有效且高效的大语言模型持续预训练

专知  · 公众号  ·  · 2024-07-30 14:00
    

文章预览

©  作者|陈杰 ‍ ‍ ‍ 机构|中国人民大学 研究方向|自然语言处理、大语言模型 继续预训练是使语言模型适应特定领域或任务的一种重要方法。为了使继续预训练更具可追溯性,本研究展示了一份技术报告,通过继续预训练显著增强了 Llama-3(8B)的中文语言能力和科学推理能力。为了在增强新能力的同时保持原有能力,我们利用现有数据集并合成高质量数据集,设计了特定的数据混合和数据课程策略。我们将继续预训练后的模型命名为 Llama-3-SynE( Syn thetic data E nhanced Llama-3)。 文章也同步发布在  AI   Box  知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨! 论文题目:Towards Effective and Efficient Continual Pre-training of Large Language Models 论文链接:https://arxiv.org/abs/2407.18743 GitHub链接:https://github.com/RUC-GSAI/Llama-3-S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览