专栏名称: NewBeeNLP
一个自然语言处理&人工智能的原创杂货铺子,希望能找到你喜欢的小玩意儿
今天看啥  ›  专栏  ›  NewBeeNLP

Llama-3-SynE:实现有效且高效的大语言模型继续预训练

NewBeeNLP  · 公众号  ·  · 2024-07-31 11:05

文章预览

©  作者|陈杰 ‍ ‍ ‍ 机构|中国人民大学 研究方向|自然语言处理、大语言模型 继续预训练是使语言模型适应特定领域或任务的一种重要方法。为了使继续预训练更具可追溯性,本研究展示了一份技术报告,通过继续预训练显著增强了 Llama-3(8B)的中文语言能力和科学推理能力。为了在增强新能力的同时保持原有能力,我们利用现有数据集并合成高质量数据集,设计了特定的数据混合和数据课程策略。我们将继续预训练后的模型命名为 Llama-3-SynE( Syn thetic data E nhanced Llama-3)。 论文题目:Towards Effective and Efficient Continual Pre-training of Large Language Models 论文链接:https://arxiv.org/abs/2407.18743 GitHub链接:https://github.com/RUC-GSAI/Llama-3-SynE 引言 大语言模型(large language model,LLM)相关研究在推动人工智能发展方面取得了重大进展,但在特定场景中仍然存 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览