专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

个人从零预训练1B LLM心路历程

极市平台 · 公众号 · · 2024-11-15 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨战士金来源丨炼钢AI 编辑丨极市平台极市导读从零开始预训练一个1B参数的中文LLM（大型语言模型）"Steel-LLM"的全过程，包括数据收集处理、模型设计、训练优化以及微调和评估，并分享了遇到的挑战和心得体会。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿前言项目开始于2024年3月初，当时朋友搞到了一台不知道能用多久的A100。这么棒的机器放着也是浪费，就琢磨着尝试从零训练一个小型号的LLM。其实在当时就有不少些这种“从零预训练LLM”的开源项目了，但是大多训练的数据量或者是模型都很小（几块4090+几十G数据就能跑起来），并没有暴露出一些工程上的问题，训练细节也没有分享的特别清晰。因此，我在制定训练LLM计划的时候有两个目标：模型参数量和数据量不能特别的demo：参数量上B， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

万联证券研究所 · 【万联医药丨公司首次覆盖】派林生物（000403）：陕煤入主赋能，公司有望通过内生外延稳健增长

7 月前

掌上春城 · 吃不完！根本吃不完！云南一高校给全体师生免费发褚橙！网友：羡慕的话已经说累了

2 月前

一条 · 押窑丨代表“世事长情“的御瓷名品豇豆红，绚如朝霞，可定制青花底款

2 月前

润农畜牧报价 · 2025年2月6日山东玉米承压略有回调，东北黑龙江领涨10-20元/吨，玉米后市前途光明！

2 天前