专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

量子位  · 公众号  · AI  · 2024-09-25 17:46

文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI FP8 通过其独特的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练成本。 AI大模型开发系统 Colossal-AI 的 混合精度训练再度升级 ,支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。 仅需一行代码,即可对主流LLM模型能够获得 平均30%的加速效果 ,降低相应大模型开发成本,并保证训练收敛性。 无需引入额外的手写CUDA算子,避免了较长的AOT编译时间和复杂的编译环境配置。 开源地址:https://github.com/hpcaitech/ColossalAI FP8混合精度训练 低精度计算一直是GPU硬件发展趋势。 从最早的FP32,到目前通用的FP16/BF16,再到Hopper系列芯片(H100, H200, H800等)支持的FP8,低精度计算速度越来越快,所需的内存也越来越低,非常符合大模型时代对硬件的需求。 目前FP8混合 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览