微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

微软亚洲研究院 · 公众号 · AI · 2024-08-20 17:01

文章预览

（本文阅读时间：14分钟）编者按：在人工智能领域，模型参数的增多往往意味着性能的提升。但随着模型规模的扩大，其对终端设备的算力与内存需求也日益增加。低比特量化技术，由于可以大幅降低存储和计算成本并提升推理效率，已成为实现大模型在资源受限设备上高效运行的关键技术之一。然而，如果硬件设备不支持低比特量化后的数据模式，那么低比特量化的优势将无法发挥。为了解决这一问题，微软亚洲研究院推出了全新的数据编译器 Ladder 和算法 T-MAC，使当前只支持对称精度计算的硬件能够直接运行混合精度矩阵乘法。测试结果表明，Ladder 在支持 GPU 原本不支持的自定义数据类型方面，最高提速可达14.6倍；T-MAC 在搭载了最新高通 Snapdragon X Elite 芯片组的 Surface AI PC 上，使 CPU 上运行的大模型吞吐率比专用加速器 NPU 快两倍。此外，研 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 特斯拉“眼”里的火车🚄🚛🚛 #人工智能##AI创造-20250106212705

昨天

爱可可-爱生活 · Diffbot LLM Inference Server：智能推-20250105141720

3 天前

爱可可-爱生活 · 本文提出了一个用于训练语言Agent解决复杂科学任务的框架，通过-20250105055337

3 天前

宝玉xp · 一用 AI 生成代码，哎，还是React吧……-20250104141627

4 天前

爱可可-爱生活 · TangoFlux：用AI快速实现高质量的文生音频这项由新加坡科-20250104092848

4 天前

五星体育 · 【观赛招募】西班牙VS德国，火星撞地球

6 月前

打坐站桩 · 打坐完了，后面怎么收功，很关键！

2 月前