专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
今天看啥  ›  专栏  ›  arXiv每日学术速递

DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

arXiv每日学术速递  · 公众号  ·  · 2024-08-04 16:40

文章预览

   新智元报道   编辑:乔杨 【新智元导读】 DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是Llama 3预训练的15%,耗费资金可达12.9M美元。 发一篇顶会论文,需要多少实验预算? 最近,DeepMind发表了一项研究,对LLM扩大规模时各种算法和架构细节,比如参数和优化器的选择,进行了广泛的实证调查。 这篇论文已被ICML 2024接收。 论文地址:https://arxiv.org/abs/2407.05872 63页的论文涵盖了数以万计的模型,备选方案包括3种优化器、4种参数化方案、几种对齐假设、十多个学习率,以及最高达26.8B的14种参数规模。 需要进行实验的4种参数化方案 仅仅听到这些数字,就不难知道,这项研究必定涉及海量的模型运行实验。 而有一位忠实读者,为了测试自己对论文内容的理解, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览