今天看啥  ›  专栏  ›  RandomGenerator

LLM 全栈开发指南补遗

RandomGenerator  · 公众号  ·  · 2023-05-29 15:59
在上一篇 LLM 应用开发全栈指南[1] 中,我们介绍了 FSDL 的新课程 LLM Bootcamp 中的内容。本周他们又把几个 guest talk 的录像放了出来,看了下也挺有收获,在这里做个补遗。How to train your own LLM首先是来自 Replit 的 Shabani 介绍他们自己训练一个代码生成的大语言模型的经验,非常有信息量,可以结合 WandB 的 How to Train LLMs from Scratch[2] 来一起看。技术栈Replit 用到的训练技术栈主要包括:Databricks,用于做各种数据处理与分析,也是整个 stack 中最复杂最重要的一部分。HuggingFace,用于获取数据集,模型,tokenizer,inference 工具等。AI 时代的 GitHub,也是人人必备了。MosaicML[3],提供模型训练的基础设施,除了 GPU 这类硬件资源外,也能自动帮你做分布式训练,各种训练加速,并提供训练 LLM 的典型参数配置等,非常容易上手。整体的架构图如下图所示:训练 LLM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照