文章预览
© 作者|陈杰 机构|中国人民大学 研究方向|自然语言处理、大语言模型 继续预训练是使语言模型适应特定领域或任务的一种重要方法。为了使继续预训练更具可追溯性,本研究展示了一份技术报告,通过继续预训练显著增强了 Llama-3(8B)的中文语言能力和科学推理能力。为了在增强新能力的同时保持原有能力,我们利用现有数据集并合成高质量数据集,设计了特定的数据混合和数据课程策略。我们将继续预训练后的模型命名为 Llama-3-SynE( Syn thetic data E nhanced Llama-3)。 论文题目:Towards Effective and Efficient Continual Pre-training of Large Language Models 论文链接:https://arxiv.org/abs/2407.18743 GitHub链接:https://github.com/RUC-GSAI/Llama-3-SynE 引言 大语言模型(large language model,LLM)相关研究在推动人工智能发展方面取得了重大进展,但在特定场景中仍然存
………………………………