文章预览
今天这篇博客来自全栈工程师朱唯唯,她在前不久举办的 KubeCon + CloudNativeCon + Open Source Summit + AI_dev 中国大会上进行了该主题分享。另有 现场视频 :https://mp.weixin.qq.com/s/iWFEI_--yTfPKxi5tl_BBA;https://www.youtube.com/watch?v=DmzZHjl-vck Kubernetes 已经成为事实的应用编排标准,越来越多的应用在不断的向云原生靠拢。与此同时,人工智能技术的迅速发展,尤其是大型语言模型(LLM)的推进,导致企业需要处理的数据量急剧增加,例如,Llama 3.1 模型拥有 4050 亿参数,其模型文件的大小达到了 231GB。随着模型参数的增长,模型文件体积也随之增大。 01 Kuberenetes 中大模型训练的存储挑战 随着数据集群规模不断扩大,在 Kubernetes 环境中管理大规模数据集群面临多重挑战: 1. 复杂权限管理 :大规模 AI 训练往往涉及到上百人算法工程师,对文件系统的权限管理提出了复杂
………………………………