专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

个人从零预训练1B LLM心路历程

极市平台  · 公众号  ·  · 2024-11-15 22:00

文章预览

↑ 点击 蓝字  关注极市平台 作者丨战士金 来源丨炼钢AI 编辑丨极市平台 极市导读   从零开始预训练一个1B参数的中文LLM(大型语言模型)"Steel-LLM"的全过程,包括数据收集处理、模型设计、训练优化以及微调和评估,并分享了遇到的挑战和心得体会。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 前言 项目开始于2024年3月初,当时朋友搞到了一台不知道能用多久的A100。这么棒的机器放着也是浪费,就琢磨着尝试从零训练一个小型号的LLM。其实在当时就有不少些这种“从零预训练LLM”的开源项目了,但是大多训练的数据量或者是模型都很小(几块4090+几十G数据就能跑起来),并没有暴露出一些工程上的问题,训练细节也没有分享的特别清晰。因此,我在制定训练LLM计划的时候有两个目标: 模型参数量和数据量不能特别的demo:参数量上B, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览