文章预览
点击下方 卡片 ,关注“ 慢慢学AIGC ” 语言模型知识蒸馏的技术与实践 近期大型语言模型在语言建模和生成任务上都展现出了令人瞩目的成果。值得注意的是,这些结果与模型的规模成正比 - 包括参数数量、训练数据规模和GPU计算时间。这些模型的输出可以通过两种最常见的方法进行定制 - RAG和使用自定义数据集进行微调。本文将探讨RAG的一些常见缺陷,语言模型微调的挑战,并概述知识蒸馏(KD)的基本概念,同时提供一个实际示例来说明其应用。 RAG代表 检索增强生成 。在RAG中,应用程序逻辑负责检索与用户查询在语义上相关的内容。这些内容与提示一起发送给语言模型。简而言之,这种方法依赖于检索策略、输入数据的质量和提示。它还依赖于语言模型的单次学习能力,因此能接受更多输入的较大语言模型可以生成更好的响应。然而,除非正确实施,否则
………………………………