专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

vllm 中量化模型的推理速度对比

AINLP  · 公众号  ·  · 2024-12-07 20:54
    

文章预览

从  moss-003-sft-data  数据集中采样 2052 条中英文用户输入数据,基于 vllm 0.6.1 推理框架,分别测试了   Qwen2.5-7B-Instruct , Qwen2.5-7B-Instruct-AWQ , Qwen2.5-7B-Instruct-GPTQ-Int4   三个模型在不同参数配置下的推理速度,耗时结果如下表所示: generation_config Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 temperature=0.7   top_p=0.8   repetition_penalty=1.05   max_tokens=512 353.88s 498.58s 460.70s temperature=0 repetition_penalty=1.0   max_tokens=512 259.86s 410.14s 371.89s temperature=0.7 top_p=0.8 repetition_penalty=1.05 max_tokens=512 : model Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 speed input 115.08 toks/s 81.66 toks/s 88.38 toks/s speed output 2548.73 toks/s 1818.71 toks/s 1947.42 toks/s temperature=0 repetition_penalty=1.0 max_tokens=512 : model Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 speed input 156.78 toks/s 99 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览