文章预览
终于有时间了,按照计划,开始测试exolabs的集群推理方案。 为什么我更看好算力异构 。 项目地址:https://github.com/exo-explore/exo 本来我计划是要测试llama-3.1-405b的,但是目前社区里的支持MLX的405b权重文件还无法下载,所以,我还在下载本地模型进行权重文件转换的过程中,估计至少还需要一天时间(今天把网络带宽都留给了其他模型的下载)。 所以,在这一次测试中,我使用了三台Mac Studio(M2 Ultra,192GB内存),分别跑llama-3.1-8B,llama-3.1-70B和Mistral-Large模型。其实,这些模型的int4量化版本在单机上都可以运行,但是我还是希望测试,当使用集群时,是否能够提升推理性能。 在之前的一篇文章里( 三台M1的Mac Mini,等于一个22B模型 ),我已经介绍了通过雷电4接口组建Mac集群的方式,这次,Mac Mini换成Mac Studio,连接方法是一样的,类似于下面的示意
………………………………