如何在服务器上部署开源大模型 GLM-4-9B-Chat 并应用到RAG应用中

小盒子的技术分享 · 公众号 · · 2024-10-21 15:40

文章预览

本地服务器部署开源大模型有一个前提，就是得有 GPU 显卡资源，在我下面的例子中我租用了 autodl 中的算力资源，具体是租用了一张消费级别的 RTX 3090 显卡。环境配置操作系统及版本：ubuntu 22.04 CUDA 版本： 12.1 pytorch 版本：2.3.0+cu121 pip 换源和安装依赖包。 # 升级pip python -m pip install --upgrade pip # 更换 pypi 源加速库的安装 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install fastapi==0.104.1 pip install uvicorn==0.24.0.post1 pip install requests==2.25.1 pip install modelscope==1.9.5 pip install transformers==4.42.4 pip install streamlit==1.24.0 pip install sentencepiece==0.1.99 pip install accelerate==0.24.1 pip install tiktoken==0.7.0 这里要注意 transformers 的版本是 4.42.4 模型下载 GLM-4-9B-Chat 模型大小为 18 GB，下载模型大概需要 10~20 分钟。由于后面我们要使用一个开源 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博