三台Mac Studio等于4块H100？本地推理Llama-405B

数字游牧日常 · 公众号 · · 2024-08-03 10:28

文章预览

前后折腾了一天多，终于在昨天晚上搞定了Mac Studio集群本地推理LlaMa-3.1-405B模型。具体的方法在三台Mac Studio跑模型文章里介绍过了，就不再赘述了，简述一下心路历程：在我开始的时候HuggingFace的MLX_Community下还没有405B-Q4的模型可下载，所以只能选择本地模式；首先下载完整的405B模型权重文件（FP16接近1T，以平均8-10MB/S的超高速，花费了超过半天的时间，非常非常快了，对吧）；利用MLX的Convert将模型量化到4bit版本；然后将模型文件部署到各个节点（为了节省时间，我花了几个小时调整了网络，终于让网络速度触达了SSD的写上限：240-250MB/S）；然后改exolabs的代码，可以加载我量化后的模型文件；然后，是一系列测试，不过我两个节点的测试一直是失败的，最后稳定在三节点可以。稳定加载后，初步尝试，推理速度4tokens/S，其实不算慢，但是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 大气评价等级判定是按拟建工程源强还是按包括现有工程的？预测呢？有无环境部文件资料明确依据？

8 小时前

环保人 · 大气评价等级判定是按拟建工程源强还是按包括现有工程的？预测呢？有无环境部文件资料明确依据？

昨天

环保人 · 事故应急池容积计算时消防废水量如何有根有据地计算？每个参数都找得到文件来源？！

2 天前

环保人 · 大气评价等级判定是按拟建工程源强还是按包括现有工程的？预测呢？有无环境部文件资料明确依据？

2 天前

环保人 · 事故应急池容积计算时消防废水量如何有根有据地计算？每个参数都找得到文件来源？！

3 天前

美式装修案例精选 · 太聪明了！卫生间预留2㎡做家政间，洗衣晾晒都不占用阳台！

8 月前

中国武夷实业股份有限公司 · 我们的节日 | 为国庆“添彩”

4 月前

艾橙互动 · 微信新功能，悄悄来了

2 月前