专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【推理加速】vLLM加速部署LLM重要参数

AINLP  · 公众号  ·  · 2024-07-28 19:25
    

文章预览

部署简单示例 from  vllm  import  LLM, SamplingParams prompts = [      "Hello, my name is" ,      "The president of the United States is" ,      "The capital of France is" ,      "The future of AI is" , ] sampling_params = SamplingParams(temperature= 0.8 , top_p= 0.95 ) llm = LLM( model= "qwen/Qwen-7B-Chat" , revision= "v1.1.8" , trust_remote_code= True ) outputs = llm.generate(prompts, sampling_params) for  output  in  outputs:     prompt = output.prompt     generated_text = output.outputs[ 0 ].text     print( f"Prompt:  {prompt!r} , Generated text:  {generated_text!r} " ) SamplingParams()重要传参 temperature :Temperature 参数是文本生成模型中用于控制生成文本的随机性和创造性的一个重要的超参数。Temperature参数通常设置为 0.1 到 1.0 之间。 top_k :模型预测的前k个最可能的下一个词。 max_tokens :模型生成的最大长度。 stop_token_ids : ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览