「乘法变加法」！MIT清华校友全新方法优化Transformer：Addition is All You Need

机器学习研究组订阅 · 公众号 · AI · 2024-10-08 19:39

文章预览

LLM能耗的疯狂增长，甚至已经引起了联合国的注意，成为了不容小觑的能源消耗者。据统计，2023年初ChatGPT服务的平均用电量为每天564兆瓦时，相当于18000个美国家庭每天的总用电量。谷歌的情况更加严峻。最坏的情况下，谷歌AI服务消耗的电力可能和一整个爱尔兰相当，约为每年29.3 TWh。要在提升推理速度的同时降低大模型的能耗，减少神经网络所需的计算量才是关键。而LLM等大规模神经网络，大部分计算量正是消耗在浮点级精度的矩阵乘法上。从线性注意力机制到量化，大多数Transformer的优化都离不开对于乘法效率的大幅提高。要么减少运算操作次数，要么减少操作数的位数。但如果从乘法运算这个更加底层的逻辑出发，两位华人研究者提出，可以用一个整数加法器以高精度近似进行浮点数乘法运算，即L-Mul乘法算法。论文地址：https://arxiv.o ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 全球首个工业界多模态推理模型开源！38B硬刚DeepSeek-R1，训练秘籍全公开

2 天前

宝玉xp · 问：宝玉老师有空多给我们讲讲mcp。这段时间做项目实在没时间跟信-20250318124624

2 天前

爱可可-爱生活 · 【[323星]PrunaAI/pruna：为开发者设计的模型优化-20250318123845

2 天前

爱可可-爱生活 · 【[843星]building-llm-applications-20250318135904

2 天前

爱可可-爱生活 · 【[180星]Dolphin MCP：一个灵活的Python库和-20250317125705

3 天前

财新 · 中国平安拟发行35亿美元可转债票息0.875%

8 月前

Clinic門诊新视野 · 探索丨脑微出血对TAVR患者的预后影响

2 月前