注册
登录
专栏名称:
顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
单向街书店
·
戒断淘宝后我发现:贫穷使我自由,省钱让我聪明!
·
3 天前
十点读书
·
认知低的人,一定要狠狠读历史
·
5 天前
慈怀读书会
·
「自发热袜」太强悍!最高升温8℃,7A抗菌, ...
·
6 天前
慈怀读书会
·
未来三年:守住,忍住,挺住!
·
6 天前
豆瓣读书
·
纵步直穿孤星映姿的湖面,逃遁时将寒光洒在如镜 ...
·
1 周前
今天看啥
›
专栏
›
顶层架构领域
4GB GPU也能玩转70B大模型——AirLLM来了!
顶层架构领域
·
公众号
· · 2024-11-08 08:30
文章预览
点击上方 蓝色 “ 顶层架构领域 ”,关注精彩与你分享 AirLLM是一个开源项目,旨在优化大型语言模型(LLM)的推理内存使用,使得70B参数的大型语言模型能够在单个4GB GPU上运行推理,这一技术突破为普通用户提供了接触尖端AI技术的可能。 一、核心技术优势 分层推理(Layer-wise Inference) : AirLLM将模型分解为多个层,每层完成计算后,其内存就会被释放,只保留输出结果。这种方法大大减少了同时需要的GPU内存。例如,70B模型的每个Transformer层的参数大小约为1.6GB,通过分层推理,每层所需的GPU内存仅为一个Transformer层的参数大小,即整个模型的1/80。 Flash Attention : Flash Attention是一种优化的注意力机制算法,提高了内存访问效率和计算速度。它受论文《Self-attention Does Not Need O(n²) Memory》启发,通过按顺序计算中间结果并丢弃其他结果,将内存复杂 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
单向街书店
·
戒断淘宝后我发现:贫穷使我自由,省钱让我聪明!
3 天前
十点读书
·
认知低的人,一定要狠狠读历史
5 天前
慈怀读书会
·
「自发热袜」太强悍!最高升温8℃,7A抗菌,冬天脚不冷!
6 天前
慈怀读书会
·
未来三年:守住,忍住,挺住!
6 天前
豆瓣读书
·
纵步直穿孤星映姿的湖面,逃遁时将寒光洒在如镜的冰池|豆瓣一周新书精选
1 周前
中央戏剧学院就业创业指导中心
·
招贤榜 | 上海西岸大剧院
昨天