连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

机器学习研究组订阅  · 公众号  · AI  · 2024-04-07 16:58

文章预览

谷歌的美女程序员,将Llama的推理速度提高了500%! 近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码, 她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。 与llama.cpp相比,新的Llamafile在CPU上的推理速度提升了30%到500%。 其中,ARMv8.2+(如RPI 5)、Intel(如Alderlake)和AVX512(如Zen 4)计算机的改进最为显著。 另外,对于适合L2缓存的矩阵,新的内核比MKL快2倍! Justine Tunney表示:负责MKL的大家,你们有事做了! 毕竟,由微软,英特尔,TI,AMD,HPE,Oracle,Huawei,Facebook,ARM和National Science Foundation资助的BLIS,作为最强大的开源BLAS,输了就太没面子了! Any time somebody outside Intel beats MKL by a nontrivial amount, I report it to the MKL team. It is fantastic for any open-source project to get within 10% of MKL... [T]his is why Intel funds BLIS development. 每当英特尔 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览