通过vLLM部署LLM模型到生产环境中

文章目录

  • 1 使用 vLLM 部署模型
  • 2 部署过程
    • 2.1 准备GPU环境
    • 2.2 安装vLLM依赖项
  • 3 使用vLLM部署模型并启动服务
    • 3.1 部署开源模型
    • 3.2 部署微调模型
  • 4 测试服务是否正常运行
  • 5 评估服务性能

1 使用 vLLM 部署模型

本地部署模型主要包含下载模型编写模型加载代码发布为支持API访问的应用服务这三个步骤。

这个过程通常伴随较高的人工部署成本,vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框架,能够以简单的命令行参数快速部署模型,并通过内存优化和缓存策略提升推理速度和支持高并发请求。

本课程将使用vLLM加载模型并启动模型服务。

该服务提供的HTTP接口兼容OpenAI API,可以通过调用HTTP接口,如/v1/chat/completions,让你快速体验大模型的推理能力。

2 部署过程

2.1 准备GPU环境

确保在GPU环境下执行模型部署操作。

2.2 安装vLLM依赖项

# 此外,还需要安装这些依赖
! pip install vllm==0.6.2 modelscope==1.20.1

3 使用vLLM部署模型并启动服务

3.1 部署开源模型

这里选择在ModelScope模型库中下载Qwen2.5-1.5B-Instruct模型进行部署。当然,也可以在HuggingFace模型库下载开源模型进行部署,暂不在此演示。

首先,下载模型文件到本地。

!mkdir -p ./model/qwen2_5-1_5b-instruct
!modelscope download --model qwen/Qwen2.5-1.5B-Instruct --local_dir './model/qwen2_5-1_5b-instruct'

下载成功后,模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。

接着,在终端窗口执行vllm命令启动一个模型服务。

vllm serve "./model/qwen2_5-1_5b-instruct" --load-format "safetensors" --port 8000

vllm serve:表示启动模型服务。
“./model/qwen2_5-1_5b-instruct”:表示加载的模型路径,通常包含模型文件、版本信息等。
–load-format “safetensors”:指定加载模型时使用的格式。
–port 8000:指定端口号,如果端口被占用,请切换为其他端口,如8100等。

服务启动成功后

你可能感兴趣的:(人工智能实验室,大语言模型,人工智能,python,AIGC,自然语言处理,语言模型,prompt,llama)