整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

LLM在Pretrain时如何做好拼接

关于NLP那些你不知道的事  · 公众号  ·  · 2024-06-04 08:00
    

文章预览

原创作者:咸鱼王 原创地址:https: //zhuanlan.zhihu.com/p/676647785 为了提高pretrain效率、拓展LLM最大长度,随机将若干条短文本进行拼接是pretrain阶段常见手段,但这种"强扭的瓜"究竟是否合理? 论文链接: IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES 01 背景 由于pretrain过高的实验成本,延用成功案例的训练策略无可厚非,但是这些策略是否最优仍未可知。该篇论文从pretrain阶段短文本拼接方案为切入点,尝试给出一种更加合理的拼接策略。同时,笔者尝试以本篇论文为主干,结合相关文章和笔者的个人见解,对这些拼接策略做进一步分析。 02 一些常见的拼接方案 2.1 Random Concatenate 2.2 Random Concatenate + NoiseMask def segment_causal_mask ( input_ids, device, val= float ( "-inf" )): bsz, tgt_len = input_ids.shape cum_lens = torch.arange( 1 , tgt_len+ 1 , device=device).unsqueeze( 0 ) * \ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览