专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

一篇小型语言模型技术最新全面综述

深度学习与NLP  · 公众号  ·  · 2024-11-22 00:00

文章预览

小型语言模型(SLMs) 因其低延迟、成本效益、易于开发和定制而受到青睐,特别适合资源受限的环境和领域知识获取。 小型语言模型(SLMs)发展时间线 构建语言模型的基本概念 介绍了构建SLMs的基础概念,包括 架构、训练技术 、从LLMs获取SLMs的方法(如 剪枝、知识蒸馏和量化 ) 架构(Architecture) Transformer架构 :SLMs通常采用Transformer架构,这是一种基于自注意力机制的模型,能够有效处理长距离文本依赖关系,适用于资源受限的环境。 训练技术(Training Techniques) 预训练范式 :从BERT的预训练和微调范式,到T5的预训练加提示方法,再到GPT-3的预训练加上下文学习,这些技术显著提升了NLP的应用范围。 从LLMs获取SLMs(Obtain SLMs from LLMs) 剪枝(Pruning) :通过移除模型中较不重要的参数来减小模型大小,包括无结构剪枝和结构化剪枝。 知识蒸馏( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览