专栏名称: CNCF
云原生计算基金会(CNCF)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。
今天看啥  ›  专栏  ›  CNCF

大模型训练:K8s 环境中数千节点存储最佳实践

CNCF  · 公众号  ·  · 2024-09-25 09:46

文章预览

今天这篇博客来自全栈工程师朱唯唯,她在前不久举办的 KubeCon + CloudNativeCon + Open Source Summit + AI_dev 中国大会上进行了该主题分享。另有 现场视频 :https://mp.weixin.qq.com/s/iWFEI_--yTfPKxi5tl_BBA;https://www.youtube.com/watch?v=DmzZHjl-vck Kubernetes 已经成为事实的应用编排标准,越来越多的应用在不断的向云原生靠拢。与此同时,人工智能技术的迅速发展,尤其是大型语言模型(LLM)的推进,导致企业需要处理的数据量急剧增加,例如,Llama 3.1 模型拥有 4050 亿参数,其模型文件的大小达到了 231GB。随着模型参数的增长,模型文件体积也随之增大。 01 Kuberenetes 中大模型训练的存储挑战 随着数据集群规模不断扩大,在 Kubernetes 环境中管理大规模数据集群面临多重挑战: 1. 复杂权限管理 :大规模 AI 训练往往涉及到上百人算法工程师,对文件系统的权限管理提出了复杂 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览