专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

新智元  · 公众号  · AI  · 2024-08-03 13:09
    

主要观点总结

DeepMind最近发表的论文涉及到LLM(大型语言模型)的大规模实验,包括各种算法和架构的细节调查。这篇文章主要概述了这些实验所需的算力和成本估算。

关键观点总结

关键观点1: 论文背景及内容概述

论文已被ICML 2024接收,主要对LLM扩大规模时的算法和架构细节进行了广泛的实证调查,涵盖了数以万计的模型和各种实验变量。

关键观点2: 实验所需的计算量和成本

实验所需的计算量非常巨大,仅从LLM预训练的标准来衡量就相当奢侈。论文涉及的实验所需的总计算量为5.42e24 FLOPS,大约是Llama 3训练计算量的15%。如果在一个有10万张H100显卡的集群上运行,完成所有实验大约需要两天时间。

关键观点3: 具体实验细节的成本估算

论文中的实验包括对齐实验、学习率实验、权重衰减实验等。每个实验的成本估算都涉及模型的参数规模、批处理大小、学习率等因素的计算。例如,对齐实验的成本大约为888美元,而某些涉及多参数优化的实验成本则可能高达数百万美元。

关键观点4: 实验室规模与实验的关系

如果实验室只有10张H100显卡,那么进行这样大规模的研究几乎是不可能的。而对于拥有100张H100的大型实验室来说,完成这些实验可能需要数年的时间。


文章预览

   新智元报道   编辑:乔杨 【新智元导读】 DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是Llama 3预训练的15%,耗费资金可达12.9M美元。 发一篇顶会论文,需要多少实验预算? 最近,DeepMind发表了一项研究,对LLM扩大规模时各种算法和架构细节,比如参数和优化器的选择,进行了广泛的实证调查。 这篇论文已被ICML 2024接收。 论文地址:https://arxiv.org/abs/2407.05872 63页的论文涵盖了数以万计的模型,备选方案包括3种优化器、4种参数化方案、几种对齐假设、十多个学习率,以及最高达26.8B的14种参数规模。 需要进行实验的4种参数化方案 仅仅听到这些数字,就不难知道,这项研究必定涉及海量的模型运行实验。 而有一位忠实读者,为了测试自己对论文内容的理解, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览