注册
登录
专栏名称:
PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
募格学术
·
安家费45-55万(军队文职),年薪30-1 ...
·
昨天
实验万事屋
·
我博士生导师刚找我谈话,问我为啥又在实验室摸 ...
·
昨天
募格学术
·
和师姐介绍的博士相亲,他说:你发的文章和硕士 ...
·
3 天前
今天看啥
›
专栏
›
PaperWeekly
Transformer升级之路:RoPE的底数设计原则
PaperWeekly
·
公众号
·
科研
· 2024-06-16 13:04
文章预览
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 我 们知道,在 RoPE 中频率的计算公式为 ,底数 默认值为 10000。目前 Long Context 的主流做法之一是,先在 上用短文本预训练,然后调大 并在长文本微调,其出发点是 《Transformer升级之路:RoPE是一种β进制编码》 里介绍的 NTK-RoPE,它本身有较好长度外推性,换用更大的 再微调相比不加改动的微调,起始损失更小,收敛也更快。 该过程给人的感觉是:调大 完全是因为“先短后长”的训练策略,如果一直都用长文本训练似乎就没必要调大 了? 近期的论文《Base of RoPE Bounds Context Length》 [1] 试图回答这个问题,它基于一个期望性质研究了 的下界,由此指出更大的训练长度本身就应该选择更大的底数,与训练策略无关。整个分析思路颇有启发性,接下来我们一起来 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
募格学术
·
安家费45-55万(军队文职),年薪30-100万(博士/博后),陆军军医大学聘大量英才!
昨天
实验万事屋
·
我博士生导师刚找我谈话,问我为啥又在实验室摸鱼玩手机!我能告诉他,主要是我这博士生,别的也玩不起啊……
昨天
募格学术
·
和师姐介绍的博士相亲,他说:你发的文章和硕士论文都挺一般的
3 天前
物流指闻
·
【一线:6·18前夕,一家五金冠网店决定跑路】
8 月前
锂电江湖
·
【JH-7144】2024下半年汽车行业投资策略:新能源博弈胜者为王,智能化与车路云开辟新方向(44页)
6 月前
富士康成都
·
国庆假期员工生活服务配套设施运行排配
3 月前
政治经济学新时空
·
假期荐书 | [日]神取道宏:《微观经济学的力量》
3 月前
宁夏信息通信业
·
1—11月我国电信业务收入、总量同比分别增长2.6%和10%
4 周前