专栏名称: NewBeeNLP
一个自然语言处理&人工智能的原创杂货铺子,希望能找到你喜欢的小玩意儿
今天看啥  ›  专栏  ›  NewBeeNLP

语言模型窗口外推技术综述

NewBeeNLP  · 公众号  ·  · 2024-11-27 11:05
    

文章预览

导读   本次分享的题目为“大语言模型窗口外推技术进展”。 主要内容包括以下几个部分: 1.  摘要 2.  绝对位置编码 3.  相对位置编码 4.   外推能力 5.  问答环节 分享嘉宾| 姜鑫 北京智源人工智能研究院  研究员 文章作者 | 周家纬   上海交通大学 硕士 出品社区| DataFun 01 摘要 主要内容概述: 绝对位置编码与相对位置编码:介绍了绝对位置编码和相对位置编码的基本原理,包括三角函数编码和旋转位置编码(RoPE)的运作机制 。 窗口外推的概念与意义:详细阐述了什么是窗口外推,为什么窗口外推对于语言模型的重要性,以及当前的研究挑战 。 当前窗口外推技术的现状:分析了不同的窗口外推方法及其各自的优缺点,如限制注意力流派和调整旋转速度流派 。 未来展望:展望了未来窗口外推技术的发展方向,特别是对 RoPE 的进一步研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览