文章预览
矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等 Transformer模型中, 矩阵乘法的运行时长约占其总运行时长的45-60%, 解决这一挑战对发展更经济的大模型具有重要意义。 为此, 加 州大学的研究人员在论文 《 Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中 试图通过消除矩阵 乘法来构建 更便宜、耗能更少的语言模型 , 这将有助于解决 当今大 语言模型所面临的环境负担高和经济效益低的问题。 基于该论文,本文作者Devansh在多个维度对无矩阵乘法语言模型的影响进行了深入分析。 (本文由OneFlow编译发布,转载请联系授权。来源:https://artificialintelligencemadesimple.substack.com/p/beyond-matmul-the-new-frontier-of) 作者|Devansh OneFlow编译 翻译|张雪聃 题图由 SiliconCloud 平台生成 1 摘要 (类似的表格将在会接下来的技术解析
………………………………