今天看啥  ›  专栏  ›  AI for Research

如何通过继续训练及合成数据有效提升大模型在特定领域能力同时维持其通用性能?通过历史一致性提高泛化能力....

AI for Research  · 公众号  ·  · 2024-07-29 23:22

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大语言模型、大模型、泛化能力的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 面向有效和高效的大模型持续预训练研究   标题: Towards Effective and Efficient Continual Pre-training of Large Language Models   关键词: 持续预训练、大语言模型、Llama-3   作者: Jie Chen,  Zhipeng Chen,  Jiapeng Wang   分析: 这项研究介绍了Llama-3-SynE,一种通过持续预训练(CPT)改进Llama-3模型的方法。主要目标是提高模型的中文能力和科学推理能力,同时保持原有性能。研究者设计了特定的数据混合和课程策略,利用现有数据集并合成高质量数据。特别是,他们基于相关网页合成了多学科科学问答对,将这些数据融入训练过程以增强模型的科学推理能力。 研究团队首先使用较小的TinyLlama模型进行调优实验,然后将发现应用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览