专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

vllm 中量化模型的推理速度对比

AINLP · 公众号 · · 2024-12-07 20:54

文章预览

从 moss-003-sft-data 数据集中采样 2052 条中英文用户输入数据，基于 vllm 0.6.1 推理框架，分别测试了 Qwen2.5-7B-Instruct ， Qwen2.5-7B-Instruct-AWQ ， Qwen2.5-7B-Instruct-GPTQ-Int4 三个模型在不同参数配置下的推理速度，耗时结果如下表所示： generation_config Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 temperature=0.7 top_p=0.8 repetition_penalty=1.05 max_tokens=512 353.88s 498.58s 460.70s temperature=0 repetition_penalty=1.0 max_tokens=512 259.86s 410.14s 371.89s temperature=0.7 top_p=0.8 repetition_penalty=1.05 max_tokens=512 : model Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 speed input 115.08 toks/s 81.66 toks/s 88.38 toks/s speed output 2548.73 toks/s 1818.71 toks/s 1947.42 toks/s temperature=0 repetition_penalty=1.0 max_tokens=512 : model Qwen2.5-7B-Instruct Qwen2.5-7B-Instruct-AWQ Qwen2.5-7B-Instruct-GPTQ-Int4 speed input 156.78 toks/s 99 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博