专栏名称: 道明数字游牧生活
顶级摄影器材分享
今天看啥  ›  专栏  ›  道明数字游牧生活

在H100上快速部署了llama3.1-405B模型

道明数字游牧生活  · 公众号  ·  · 2024-07-25 20:08

文章预览

Ollama支持了llama3.1的推理部署,包括8B、70B、405B版本,其中8B和70B版本都支持FP16以及各种量化版本,405B目前只支持Q4量化版本。 当然,即使是405B的Q4量化版本,权重文件大小也需要231GB,我之前一篇文章里说到的Mac Studio(192GB内存配置)有希望单机跑Q4量化版本的推测过于乐观了。更可能的情况是也许借助交换区可以跑下来,但是推理速度,就不要做任何幻想了。 利用Mac的方式还是要通过集群。 因为时间关系,需要到下周才可以在自己的Mac集群上部署。但是忍不住手痒心痒,所以还是请朋友在4卡H100的环境下用Ollama快速部署了一个环境。 这里就简单做个更新: 1、四卡环境下,每块GPU占用60GB左右显存,相对于H100的80GB配置而言,基本用满; 2、推理时,功率并不高,大概150W左右,说明负载压力不大(约50%),也说明PCI-E接口确实无法发挥卡本身的能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览