专栏名称: 大淘宝技术
淘系技术官方账号
目录
今天看啥  ›  专栏  ›  大淘宝技术

动态量化:大模型在端侧CPU快速推理方案

大淘宝技术  · 公众号  · 程序员  · 2024-10-16 19:04
    

主要观点总结

本文介绍了MNN CPU动态量化的相关内容,包括数学表达式、关键计算步骤、使用教程及性能测试结果。

关键观点总结

关键观点1: MNN CPU动态量化的原理

MNN CPU动态量化是一种在运行时对浮点型数据进行量化,以降低模型推理的内存占用和提高运行速度的技术。它通过对权重数据进行8bit量化,然后与8bit或4bit的权重数据做矩阵乘法,并将结果反量化输出。

关键观点2: MNN CPU动态量化的优势

MNN CPU动态量化在Transformer类模型和传统CV模型的推理中都有不错的表现,可以显著提升推理性能和降低运行时内存。此外,动态量化方法相较于浮点模型,算法过程更加简单高效,并且理论上精度更高。

关键观点3: MNN CPU动态量化的使用教程

使用MNN CPU动态量化进行推理需要设置编译宏MNN_LOW_MEMORY,并在推理时设置memory=low。此外,还需要使用config.json文件指定推理时的相关参数,如模型文件、线程数、精度等。

关键观点4: MNN CPU动态量化的性能测试结果

在测试机器小米14(骁龙8Gen3)上,对LLM模型、mobilenetv3、mobilenetv2和resnet50等模型进行了动态量化推理的性能测试。结果显示,动态量化在推理速度上有明显的提升,并且对于不同的模型都有较好的表现。

关键观点5: 团队介绍

介绍大淘宝技术Meta Team及其研究方向,包括端智能、商品三维重建、3D引擎等方面的技术积累,以及在顶级学术会议和期刊上发表的论文。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照