专栏名称: 道明数字游牧生活
顶级摄影器材分享
今天看啥  ›  专栏  ›  道明数字游牧生活

三台Mac Studio等于4块H100?本地推理Llama-405B

道明数字游牧生活  · 公众号  ·  · 2024-08-03 10:28

文章预览

前后折腾了一天多,终于在昨天晚上搞定了Mac Studio集群本地推理LlaMa-3.1-405B模型。 具体的方法在 三台Mac Studio跑模型 文章里介绍过了,就不再赘述了,简述一下心路历程: 在我开始的时候HuggingFace的MLX_Community下还没有405B-Q4的模型可下载,所以只能选择本地模式; 首先下载完整的405B模型权重文件(FP16接近1T,以平均8-10MB/S的超高速,花费了超过半天的时间,非常非常快了,对吧); 利用MLX的Convert将模型量化到4bit版本; 然后将模型文件部署到各个节点(为了节省时间,我花了几个小时调整了网络,终于让网络速度触达了SSD的写上限:240-250MB/S); 然后改exolabs的代码,可以加载我量化后的模型文件; 然后,是一系列测试,不过我两个节点的测试一直是失败的,最后稳定在三节点可以。 稳定加载后,初步尝试,推理速度4tokens/S,其实不算慢,但是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览