文章预览
前后折腾了一天多,终于在昨天晚上搞定了Mac Studio集群本地推理LlaMa-3.1-405B模型。 具体的方法在 三台Mac Studio跑模型 文章里介绍过了,就不再赘述了,简述一下心路历程: 在我开始的时候HuggingFace的MLX_Community下还没有405B-Q4的模型可下载,所以只能选择本地模式; 首先下载完整的405B模型权重文件(FP16接近1T,以平均8-10MB/S的超高速,花费了超过半天的时间,非常非常快了,对吧); 利用MLX的Convert将模型量化到4bit版本; 然后将模型文件部署到各个节点(为了节省时间,我花了几个小时调整了网络,终于让网络速度触达了SSD的写上限:240-250MB/S); 然后改exolabs的代码,可以加载我量化后的模型文件; 然后,是一系列测试,不过我两个节点的测试一直是失败的,最后稳定在三节点可以。 稳定加载后,初步尝试,推理速度4tokens/S,其实不算慢,但是
………………………………