专栏名称: 任易

跟理工男一起探索真相。作者任易，南开本科，清华硕士，15年工龄，做过IBM销售、地铁工程、石化项目经理、售前顾问、鹅厂架构师，现任A股上市公司中层，对销售、施工、人力、组织、项目、造价、IT都略有涉猎，我们一起用数据和逻辑还原真相。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

IT垃圾佬又满血复活了

任易 · 公众号 · 自媒体 · 2024-09-10 20:04

主要观点总结

本文介绍了作者搞大模型训练一年多的感触，包括GPU的紧缺情况、大模型企业的情况、低端显卡的利用、云服务商的考虑以及阿里云的DeepGPU工具等。文章还提到了不同配置和实例的购买建议。

关键观点总结

关键观点1: GPU紧缺及大模型企业情况

文章介绍了GPU的紧缺情况，大量的H100系列GPU通过华强北进入大陆机房，云服务商采购大量GPU服务器。国内大模型企业开始搞万卡集群。

关键观点2: 低端显卡的利用

随着高端GPU的推陈出新，低端显卡的需求在变窄。文章提出了如何让低端显卡创造价值的思路，包括卡多力量大和内存帮帮忙两条路。

关键观点3: 云服务商的考虑

云服务商开始使用低端显卡做大规模模型的推理，并免费提供给海量用户使用。同时，云服务商也在探索如何提高使用云GPU训练和推理的效率。

关键观点4: 阿里云的DeepGPU工具

阿里云推出的DeepGPU工具可以支持多GPU并行、快速部署工具、GPU资源拆分工具、AI训练和推理计算优化工具等。该工具可以显著提高生成式AI场景的效率，包括大模型加速推理和文生图等。

关键观点5: 购买建议

文章给出了不同配置的购买建议，包括自建IDC和租用云GPU主机的对比，以及针对不同需求的实例购买建议。

文章预览

我搞大模型训练这一年多来，最大的感触是：「美国制裁了一个寂寞」。其实GPU的紧俏也就是从2023年10月17日到2023年12月，等到了年底，一大批炒家囤了GPU卡，急于回笼资金，开始出售。等到今年年初，大量的H100系列GPU就通过深圳的华强北进入大陆的各个机房，财大气粗的云服务商也采购了大量的GPU服务器，而且公然在线下论坛里直言自己提供的就是H100。在这种内卷情况下，8卡H100服务器的月租单价就已经从最高点的12万/月降低到了7.5万/月，降了将近40%。所以国内的大模型企业也都卡多气粗，开始搞起了万卡集群。《万卡集群，进入AI核心圈的入场券 | 雷峰网 [1] 」》随着H100、H800、A100、A800等80GB以上显存的GPU充满了云服务商的机房，低端显卡成了鸡肋，耗电量高，成本不低，偏偏需求还在萎缩。原来搞3D电影用的渲染农场，随着GPU一代一代推 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博