文章预览
小型语言模型(SLMs) 因其低延迟、成本效益、易于开发和定制而受到青睐,特别适合资源受限的环境和领域知识获取。 小型语言模型(SLMs)发展时间线 构建语言模型的基本概念 介绍了构建SLMs的基础概念,包括 架构、训练技术 、从LLMs获取SLMs的方法(如 剪枝、知识蒸馏和量化 ) 架构(Architecture) Transformer架构 :SLMs通常采用Transformer架构,这是一种基于自注意力机制的模型,能够有效处理长距离文本依赖关系,适用于资源受限的环境。 训练技术(Training Techniques) 预训练范式 :从BERT的预训练和微调范式,到T5的预训练加提示方法,再到GPT-3的预训练加上下文学习,这些技术显著提升了NLP的应用范围。 从LLMs获取SLMs(Obtain SLMs from LLMs) 剪枝(Pruning) :通过移除模型中较不重要的参数来减小模型大小,包括无结构剪枝和结构化剪枝。 知识蒸馏(
………………………………