专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM在Pretrain时如何做好拼接

关于NLP那些你不知道的事 · 公众号 · · 2024-06-04 08:00

文章预览

原创作者：咸鱼王原创地址：https: //zhuanlan.zhihu.com/p/676647785 为了提高pretrain效率、拓展LLM最大长度，随机将若干条短文本进行拼接是pretrain阶段常见手段，但这种"强扭的瓜"究竟是否合理？论文链接： IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES 01 背景由于pretrain过高的实验成本，延用成功案例的训练策略无可厚非，但是这些策略是否最优仍未可知。该篇论文从pretrain阶段短文本拼接方案为切入点，尝试给出一种更加合理的拼接策略。同时，笔者尝试以本篇论文为主干，结合相关文章和笔者的个人见解，对这些拼接策略做进一步分析。 02 一些常见的拼接方案 2.1 Random Concatenate 2.2 Random Concatenate + NoiseMask def segment_causal_mask ( input_ids, device, val= float ( "-inf" )): bsz, tgt_len = input_ids.shape cum_lens = torch.arange( 1 , tgt_len+ 1 , device=device).unsqueeze( 0 ) * \ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

重庆市文化和旅游发展委员会 · 免票！半价！“三八妇女节”特惠来袭！重庆多个景区邀你共赏春光

昨天

重庆市文化和旅游发展委员会 · 免票！半价！“三八妇女节”特惠来袭！重庆多个景区邀你共赏春光

昨天

中核集团 · 校园招聘🧐

2 天前

重庆之声 · 天气丨冷飕飕！今夜起重庆有阵雨，明天最低2℃

2 天前

中核集团 · 校园招聘🤓

3 天前

财经杂志 · 大模型进入网文行业，最终会替代作家吗？

8 月前

网罗灯下黑 · 你的手机内存多大空间？

8 月前

中国人力资源 · 未休年假，要给300%工资赔偿吗？

2 月前