文章预览
本文介绍Kaggle竞赛中使用vLLM进行模型预测的Baseline,对此感兴趣的朋友可以去下面链接中参赛https://www.kaggle.com/competitions/lmsys-chatbot-arena 跟着大神一起进步学习。 案例 %%time # 安装工具包 !pip uninstall -y torch !pip install -U --no-index --find-links=/kaggle/input/vllm-whl -U vllm !pip install -U --upgrade /kaggle/input/vllm-t4-fix/grpcio-1.62.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl !pip install -U --upgrade /kaggle/input/vllm-t4-fix/ray-2.11.0-cp310-cp310-manylinux2014_x86_64.whl import os, math, numpy as np # 指定gpu os.environ[ "CUDA_VISIBLE_DEVICES" ]= "0,1" 1. 加载带有 vLLM 的 34B 量化模型 import vllm llm = vllm.LLM( "/kaggle/input/bagel-v3-343" , quantization= "awq" , tensor_parallel_size=2, gpu_memory_utilization=0.95, trust_remote_code=True, dtype= "half" , enforce_eager=True, max_model_len=10
………………………………