专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

普林斯顿 | 提出预训练方法:MeCo,减少33%数据,提升预训练过程

AINLPer  · 公众号  ·  · 2025-01-08 22:41
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 引言 语言模型通过海量网络数据训练获得通用能力,但将不同来源数据同等对待,忽略了上下文信号,影响特定任务表现。为此,本文作者提出MeCo方法,在预训练时用文档元数据调节,并在训练尾声冷却,使模型有无元数据均能高效运行。MeCo加速预训练,提升下游任务性能,且冷却阶段让模型无元数据也能推理,优于传统方法。 论文标题:Metadata Conditioning Accelerates Language Model Pre-training 论文地址:https://arxiv.org/pdf/2501.01956v1 代码地址:https://github.com/princeton-pli/MeCo 背景介绍 语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。 这种以相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览