LLM 全栈开发指南补遗

RandomGenerator · 公众号 · · 2023-05-29 15:59

在上一篇 LLM 应用开发全栈指南[1] 中，我们介绍了 FSDL 的新课程 LLM Bootcamp 中的内容。本周他们又把几个 guest talk 的录像放了出来，看了下也挺有收获，在这里做个补遗。How to train your own LLM首先是来自 Replit 的 Shabani 介绍他们自己训练一个代码生成的大语言模型的经验，非常有信息量，可以结合 WandB 的 How to Train LLMs from Scratch[2] 来一起看。技术栈Replit 用到的训练技术栈主要包括：Databricks，用于做各种数据处理与分析，也是整个 stack 中最复杂最重要的一部分。HuggingFace，用于获取数据集，模型，tokenizer，inference 工具等。AI 时代的 GitHub，也是人人必备了。MosaicML[3]，提供模型训练的基础设施，除了 GPU 这类硬件资源外，也能自动帮你做分布式训练，各种训练加速，并提供训练 LLM 的典型参数配置等，非常容易上手。整体的架构图如下图所示：训练 LLM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博