专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

量子位  · 公众号  · AI  · 2025-03-03 15:58
    

文章预览

SepLLM团队 投稿 量子位 | 公众号 QbitAI 文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程? 来自华为、港大、KAUST和马普所的研究者,就提出了一种新的自然语言建模视角—— SepLLM 。 起因是团队发现 某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位 。 于是,SepLLM通过将一段文本中的信息压缩进分隔符 (比如逗号,句号等) 中,真的实现了加速效果,并且可以让KV缓存减少一半。 自注意力机制的平方级复杂度,给计算存储需求和训练推理速度带来了不小的挑战。 为了降低推理的复杂度,大量节约KV Cache的稀疏化方法被提出。 然而这些方法大多是基于用户的问题或者提示来筛选有用的KV Cache。 这使得如果用户再提出一个新的问题,模型回答的精度可能下降,因为包含答案信息的KV已经在上一次压缩过程 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览