文章预览
↑ 点击 蓝字 关注极市平台 作者丨Delta-CoMe团队 来源丨量子位 编辑丨极市平台 极市导读 最新模型增量压缩技术,一个80G的A100 GPU能够轻松加载多达50个7B模型,节省显存约8倍,同时模型性能几乎与压缩前的微调模型相当。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 清华大学NLP实验室携手OpenBMB开源社区、北京大学和上海财经大学的研究团队,提出 Delta-CoMe 。 这项技术的核心在于 利用主干模型与任务专用模型之间参数增量 (即Delta)的特点进行压缩,从而实现存储开销和部署成本的大幅降低。不仅有助于解决资源瓶颈问题,更为多任务处理和模型部署开辟新的可能。 具体而言,Delta-CoMe将低秩分解和低比特量化技术相结合,充分利用Delta参数的低秩特性,提出了一种全新的混合精度压缩方法。这种方法不仅能够实现接近无损的任务性
………………………………