使用vllm创建相同模型的多个实例,使用nginx进行负载均衡,提高模型吞吐量

背景

要提高vllm部署的大模型吞吐量,可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手,以下是具体建议:

一、提高 gpu-memory-utilization 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例(默认0.9),当前值0.35预留了过多显存,是吞吐量低的重要原因。

  • 提升空间:合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8(需根据实际显存占用测试),理论上能将单次批处理量提升1-2倍(具体取决于模型大小)。
  • 操作建议
    1. 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误:
      CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \
        --model /home/liuzhiming/.../dir \
        --port 18889 \
        --tensor-parallel-size 1 \
        --max-num-batched-tokens 16384  # 同步增大批处理token上限 \
        --max-num-seqs 512  # 同步增大序列数上限 \
        --gpu-memory-utilization 0.6 

你可能感兴趣的:(使用vllm创建相同模型的多个实例,使用nginx进行负载均衡,提高模型吞吐量)