2024-09-28 06:09
本条微博链接
提出GemFilter方法,利用语言模型的早期层作为过滤器选择关键词汇输入,实现长序列输入下的高效低内存消耗推理。
[CL]《Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction》Z Shi, Y Ming, X Nguyen, Y Liang, S Joty [University of Wisconsin-Madison Salesforce AI Research] (2024)
………………………………