一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

LightTransfer:将你的LLM轻松转为Hybrid model,增强o1-like长文本生成能力

深度学习自然语言处理  · 公众号  ·  · 2025-02-05 16:22
    

文章预览

最近hybrid model的有效性已被广泛验证(比如minimax-01和gemma2等)。该篇论文研究了一个非常有趣的主题:如何将预训练好的dense transformer(如qwq)转化为hybrid model。具体来说,提出了一个轻量转化算法——LightTransfer💡,将50%层的full attention替换为sliding window attention。 作者:Wzl 来自:深度学习自然语言处理 链接:https://arxiv.org/abs/2410.13846 主页: https://sites.google.com/view/lighttransfer 动机和观察 (1)从什么角度实现? 一个高效且自然的建模方式:大规模预训练的LLM+少部分的修改+少部分的训练 -> Hybrid model。 一种直接且有效的做法:将full attention layers中部分standard attn layer替换为efficient attn layer。 (2)efficient attn layer实现? 引入KV cache compression的代表做法:streaming attn+sink,实现sliding window attn(即保留每一层开头和结尾对应的KV对)。 (3)部分layer替换? 某 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览