整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
地刊速览  ·  Science ... ·  昨天  
地刊速览  ·  Science ... ·  昨天  
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

长文本训练理解

关于NLP那些你不知道的事  · 公众号  ·  · 2024-08-19 07:00
    

文章预览

作者:ybq 原 文 地址: https://zhuanlan.zhihu.com/p/706501788 本文对 llm 如何进行长文本训练,进行一些基础知识的普及,并提供一些最简单的代码来解释原理。如果想要深入了解其中门道,还需要读者自行研究 megatron、deepspeed、flash-attention 等源码。 我们从这几个问题进行探讨: 为什么要进行长文本训练? 长文本训练有什么难度? 各大框架都是怎么做的? 为什么长文本 工业界对长文本的需求不用过多赘述,论文解读、RAG、多模态、文学创作等任务,动辄就是一个 query 好几千的 token 量。这种情况下,谁家的模型在长文本下效果好,自然就能提供给用户更好的体验。 在 2023 年的时候,大多长文本的工作还是围绕着 “ ROPE 的外推” 来进行,这里最经典的工作莫过于 NTK 了。不过时至今日,大家似乎倾向于更加返璞归真的做法:我直接在 pretrain / postrai ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览