文章预览
AI时代,大模型以前所未有的速度和广度重新塑造我们的数字世界。算法演进,数据挖掘和算力扩展,仍然是AI业务发展的三大飞轮。模型参数从数十亿增长到万亿级,推动互联网、自动驾驶、金融、医疗等领域的智能化发展。同时,预训练逐渐遇到数据墙,Scaling的边际效益开始递减,大模型正在从单纯追求模型规模扩展转向优化推理能力。长文本,MoE混合专家模型成为发展趋势。而随着OpenAI的o1/o3模型的发布,Self-play RL(自我对弈强化学习),CoT(Chain of Thought,思维链),Test-time Compute(推理时计算)等新范式逐渐涌现。大模型Scaling law仍在继续,并且在原有预训练基础上拓展到微调和推理。 对AI基础设施(AI Infra)来说,在大模型Scaling law的规模增长驱动下,性能和稳定性将面临更大的挑战。一方面头部基础大模型预训练所需要的算力依然在持续
………………………………