文章预览
1 多模态大模型关键技术 1.1 中文预训练大模型关键技术分析 现有的预训练大模型的基本结构通常为 Transformer 结构,在大 量的无标注文本数据上采用相应的训练方法训练得到最终的预训练模型。由于训练模型的训练方法与实际的下游任务存在一定差距,预训练模型往往采用微调等方式将模型应用至下游任务中。 而近年来随着预训练模型规模的不断扩大,大规模预训练模型的训练与部署已成为制约其发展的主要因素,大规模并行训练与缩减推理阶段成本的各种技术也成为了预训练大模型关键技术之一。 为此,本节将从Transformer 介绍、预训练大模型训练方法、预训练大模型在下游任务的应用方式以及预训练大模型的并行训练与部署等四个方面对大规模预训练大模型关键技术做简要的概括与分析。 1.1.1 Transformer 介绍 图 3.1-1 Transformer 框架图 如上图
………………………………