Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知 · 公众号 · · 2024-07-30 14:00

文章预览

© 作者｜陈杰 ‍ ‍ ‍ 机构｜中国人民大学研究方向｜自然语言处理、大语言模型继续预训练是使语言模型适应特定领域或任务的一种重要方法。为了使继续预训练更具可追溯性，本研究展示了一份技术报告，通过继续预训练显著增强了 Llama-3（8B）的中文语言能力和科学推理能力。为了在增强新能力的同时保持原有能力，我们利用现有数据集并合成高质量数据集，设计了特定的数据混合和数据课程策略。我们将继续预训练后的模型命名为 Llama-3-SynE（ Syn thetic data E nhanced Llama-3）。文章也同步发布在 AI Box 知乎专栏（知乎搜索 AI Box 专栏），欢迎大家在知乎专栏的文章下方评论留言，交流探讨！论文题目：Towards Effective and Efficient Continual Pre-training of Large Language Models 论文链接：https://arxiv.org/abs/2407.18743 GitHub链接：https://github.com/RUC-GSAI/Llama-3-S ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博