专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LightTransfer：将你的LLM轻松转为Hybrid model，增强o1-like长文本生成能力

深度学习自然语言处理 · 公众号 · · 2025-02-05 16:22

文章预览

最近hybrid model的有效性已被广泛验证（比如minimax-01和gemma2等）。该篇论文研究了一个非常有趣的主题：如何将预训练好的dense transformer（如qwq）转化为hybrid model。具体来说，提出了一个轻量转化算法——LightTransfer💡，将50%层的full attention替换为sliding window attention。作者：Wzl 来自：深度学习自然语言处理链接：https://arxiv.org/abs/2410.13846 主页: https://sites.google.com/view/lighttransfer 动机和观察（1）从什么角度实现？一个高效且自然的建模方式：大规模预训练的LLM+少部分的修改+少部分的训练 -> Hybrid model。一种直接且有效的做法：将full attention layers中部分standard attn layer替换为efficient attn layer。（2）efficient attn layer实现？引入KV cache compression的代表做法：streaming attn+sink，实现sliding window attn（即保留每一层开头和结尾对应的KV对）。（3）部分layer替换？某 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博