文章预览
部署简单示例 from vllm import LLM, SamplingParams prompts = [ "Hello, my name is" , "The president of the United States is" , "The capital of France is" , "The future of AI is" , ] sampling_params = SamplingParams(temperature= 0.8 , top_p= 0.95 ) llm = LLM( model= "qwen/Qwen-7B-Chat" , revision= "v1.1.8" , trust_remote_code= True ) outputs = llm.generate(prompts, sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[ 0 ].text print( f"Prompt: {prompt!r} , Generated text: {generated_text!r} " ) SamplingParams()重要传参 temperature :Temperature 参数是文本生成模型中用于控制生成文本的随机性和创造性的一个重要的超参数。Temperature参数通常设置为 0.1 到 1.0 之间。 top_k :模型预测的前k个最可能的下一个词。 max_tokens :模型生成的最大长度。 stop_token_ids :
………………………………