在H100上快速部署了llama3.1-405B模型

数字游牧日常 · 公众号 · · 2024-07-25 20:08

文章预览

Ollama支持了llama3.1的推理部署，包括8B、70B、405B版本，其中8B和70B版本都支持FP16以及各种量化版本，405B目前只支持Q4量化版本。当然，即使是405B的Q4量化版本，权重文件大小也需要231GB，我之前一篇文章里说到的Mac Studio（192GB内存配置）有希望单机跑Q4量化版本的推测过于乐观了。更可能的情况是也许借助交换区可以跑下来，但是推理速度，就不要做任何幻想了。利用Mac的方式还是要通过集群。因为时间关系，需要到下周才可以在自己的Mac集群上部署。但是忍不住手痒心痒，所以还是请朋友在4卡H100的环境下用Ollama快速部署了一个环境。这里就简单做个更新： 1、四卡环境下，每块GPU占用60GB左右显存，相对于H100的80GB配置而言，基本用满； 2、推理时，功率并不高，大概150W左右，说明负载压力不大（约50%），也说明PCI-E接口确实无法发挥卡本身的能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

春城晚报 · 价格大降！昆明有商家一早上卖掉近500公斤……

9 小时前

掌上春城 · 天塌了！头皮发麻！上班一直在喝蚂蚁泡澡水，细菌超厕所3200倍……

19 小时前

物道 · 無印良品又一爆款！ins风春夏四件套，只要99元？

昨天

昆明发布 · 春日限定！昆明油菜花海上线

昨天

氧叔本叔 · 42岁王心凌嫩出新高度？又甜又欲的身材好似刚剥壳的鸡蛋…

2 天前

必易微 · 光亚展 | 必易微一站式芯片解决方案亮相现场

8 月前

必易微 · 光亚展 | 必易微一站式芯片解决方案亮相现场

8 月前

青海纪检监察 · 海南共和：边巡边改、立行立改解决项目通电难题

3 月前

闵行消防 · 18岁少年买下“6手车”，不幸被炸身亡！细节披露→

1 月前

南京日报 · 刚刚，《哪吒2》全球前二！

5 天前