专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元

新智元 · 公众号 · AI · 2024-08-03 13:09

主要观点总结

DeepMind最近发表的论文涉及到LLM（大型语言模型）的大规模实验，包括各种算法和架构的细节调查。这篇文章主要概述了这些实验所需的算力和成本估算。

关键观点总结

关键观点1: 论文背景及内容概述

论文已被ICML 2024接收，主要对LLM扩大规模时的算法和架构细节进行了广泛的实证调查，涵盖了数以万计的模型和各种实验变量。

关键观点2: 实验所需的计算量和成本

实验所需的计算量非常巨大，仅从LLM预训练的标准来衡量就相当奢侈。论文涉及的实验所需的总计算量为5.42e24 FLOPS，大约是Llama 3训练计算量的15%。如果在一个有10万张H100显卡的集群上运行，完成所有实验大约需要两天时间。

关键观点3: 具体实验细节的成本估算

论文中的实验包括对齐实验、学习率实验、权重衰减实验等。每个实验的成本估算都涉及模型的参数规模、批处理大小、学习率等因素的计算。例如，对齐实验的成本大约为888美元，而某些涉及多参数优化的实验成本则可能高达数百万美元。

关键观点4: 实验室规模与实验的关系

如果实验室只有10张H100显卡，那么进行这样大规模的研究几乎是不可能的。而对于拥有100张H100的大型实验室来说，完成这些实验可能需要数年的时间。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

宝玉xp · 最近 Cursor 风评不太好，社区吐槽声音不少，主要是现在收费-20250705135614

13 小时前

爱可可-爱生活 · 【[1.3k星]Palmr：开源文件传输平台，让你轻松管理与分享-20250704133858

昨天

宝玉xp · 回复@大茄茄拌土豆:多实践同时学习理论，多借助AI编程和学习，但-20250704013201

2 天前

爱可可-爱生活 · 【[221星]mcp-google-sheets：AI助手的Go-20250703133141

2 天前

爱可可-爱生活 · 【[6星]AudioBERTScore：为文本到音频生成任务提供-20250703133604

2 天前

羊羊的地理教室 · 【教师礼包】《新题速递——广东省华南师范大学附属中学2023-2024学年高三下学期4月高考适应性练习》

1 年前

招财部落 · 中概之光业绩炸裂！消费降级的最大赢家

1 年前

投行业务资讯 · 又一科创板IPO终止！

1 年前

深圳海上世界 · <𝓒𝓾𝓲𝓼𝓲𝓷𝓮>鐘菜 | 4周年感恩回馈，全场点心5折！

1 年前

华医网 · 公共营养师值得考吗？就业前景如何？

9 月前