文章预览
Ollama支持了llama3.1的推理部署,包括8B、70B、405B版本,其中8B和70B版本都支持FP16以及各种量化版本,405B目前只支持Q4量化版本。 当然,即使是405B的Q4量化版本,权重文件大小也需要231GB,我之前一篇文章里说到的Mac Studio(192GB内存配置)有希望单机跑Q4量化版本的推测过于乐观了。更可能的情况是也许借助交换区可以跑下来,但是推理速度,就不要做任何幻想了。 利用Mac的方式还是要通过集群。 因为时间关系,需要到下周才可以在自己的Mac集群上部署。但是忍不住手痒心痒,所以还是请朋友在4卡H100的环境下用Ollama快速部署了一个环境。 这里就简单做个更新: 1、四卡环境下,每块GPU占用60GB左右显存,相对于H100的80GB配置而言,基本用满; 2、推理时,功率并不高,大概150W左右,说明负载压力不大(约50%),也说明PCI-E接口确实无法发挥卡本身的能
………………………………