专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

长文本训练理解

关于NLP那些你不知道的事 · 公众号 · · 2024-08-19 07:00

文章预览

作者：ybq 原文地址： https://zhuanlan.zhihu.com/p/706501788 本文对 llm 如何进行长文本训练，进行一些基础知识的普及，并提供一些最简单的代码来解释原理。如果想要深入了解其中门道，还需要读者自行研究 megatron、deepspeed、flash-attention 等源码。我们从这几个问题进行探讨：为什么要进行长文本训练？长文本训练有什么难度？各大框架都是怎么做的？为什么长文本工业界对长文本的需求不用过多赘述，论文解读、RAG、多模态、文学创作等任务，动辄就是一个 query 好几千的 token 量。这种情况下，谁家的模型在长文本下效果好，自然就能提供给用户更好的体验。在 2023 年的时候，大多长文本的工作还是围绕着 “ ROPE 的外推” 来进行，这里最经典的工作莫过于 NTK 了。不过时至今日，大家似乎倾向于更加返璞归真的做法：我直接在 pretrain / postrai ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

地刊速览 · Science Advances：南极洲发现史前巨型河流系统

昨天

地刊速览 · Science Advances：南极洲发现史前巨型河流系统

昨天

中国国家地理 · 小寒：最该赏花的一个节气

昨天

中国国家地理 · 赏蜡梅，静待春来

2 天前

星球研究所 · 是时候，给“脑瘫”改个名字了

3 天前

国家人文历史 · 为什么唐朝在国力鼎盛之时，反而丧失了其在中亚的势力？

4 月前

价值事务所 · 炸裂炸裂，业绩加速释放，下一个长江电力，关键潜力要大的多！

1 月前

DataFunTalk · 数智汽车行业峰会、AI基础软件架构峰会招募内容整理志愿者！

1 月前

DataFunTalk · 数智汽车行业峰会、AI基础软件架构峰会招募内容整理志愿者！

1 月前

虹口区消保委 · 低价体验课火了，消保委提醒来了！

4 天前