专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

LMDeploy 部署 VLMs 的方法与探讨

魔搭ModelScope社区  · 公众号  ·  · 2024-08-16 15:56
    

文章预览

感谢LMDeploy项目负责人吕晗老师的分享! 01 LMDeploy简介 LMDeploy 是一个高效且友好的大型语言模型(LLMs)和视觉-语言模型(VLMs)部署工具箱,由上海人工智能实验室模型压缩和部署团队开发,涵盖了模型量化、离线推理和在线服务等功能。 1.1 软硬件平台 支持的软硬件平台包括: Linux、Windows 系统 + NVIDIA 显卡。运行时,cuda runtime的最低要求是11.3。支持的 NVIDIA 显卡型号包括: Volta(sm70): V100 Turing(sm75): 20 系列,T4 Ampere(sm80,sm86): 30 系列,A10, A16, A30, A100 等 Ada Lovelace(sm89): 40 系列 Hopper(sm90): H100(尚未深度优化) Huawei 910b 1.2 项目 结构 1.2.1 接口层 Python:离线推理 RESTful:访问在线服务 gRPC:访问 triton inference server 接口。没有支持 VLM 模型 1.2.2 量化层 权重量化:支持 AWQ 和 SmoothQuant 算法 K/V Cache:KV在线量化 1.2.3 引擎层 TurboMind 引擎: 起源于 FasterTransformer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览