使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

    • 引言
    • 环境搭建
    • 安装vLLM
    • 安装依赖库
    • 下载模型
    • 启动vLLM服务器
    • 总结
    • 参考

引言

近年来,随着大规模语言模型(LLM)的快速发展,如何高效地进行模型推理成为了一个热门话题。vLLM作为一个专为加速LLM推理而设计的库,受到了广泛关注。本文将详细介绍如何使用vLLM来部署Qwen2.5-VL-7B-Instruct模型。

环境搭建

首先,我们需要搭建一个合适的环境。通过以下命令创建一个新的conda环境并激活它:

conda create -n vllm_qwen2_5_vl python=3.12 -y
conda activate vllm_qwen2_5_vl

安装vLLM

接下来,我们需要安装vLLM。由于目前vLLM的官方仓库尚未合并对Qwen2.5-VL-7B-Instruct的支持,我们需要从特定的分支(qwen2_5_vl)进行安装。

注意:如果未来vLLM的官方仓库合并了相关支持,直接使用pip install vllm即可。

git clone https://github.com/ywang96/vllm@qwen2_5_vl vllm_qwen
cd vllm_qwen/
git checkout qwen2_5_vl

在安装vLLM时,我们可以使用预编译的二进制文件来加速安装过程:

VLLM_USE_PRECOMPILED=1 pip install -e .

安装依赖库

为了确保vLLM能够正常运行,我们需要安装一些必要的依赖库。

同样,如果未来vLLM的官方仓库合并了相关支持,直接使用pip install vllm即可。

pip install "git+https://github.com/huggingface/transformers"
pip install flash-attn --no-build-isolation

此外,我们还需要安装Hugging Face Hub的工具,以便从Hub上下载模型:

pip install "huggingface_hub[hf_transfer]"

下载模型

接下来,我们从Hugging Face Hub下载Qwen2.5-VL-7B-Instruct模型:

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct

启动vLLM服务器

最后,我们使用vLLM将模型作为服务器启动。运行以下命令:

VLLM_USE_V1=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve Qwen/Qwen2.5-VL-7B-Instruct --trust-remote-code --served-model-name gpt-4 --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000

在这个命令中,我们使用了以下选项:

  • --trust-remote-code: 允许执行远程代码。
  • --served-model-name gpt-4: 将服务器提供的模型名称设置为gpt-4
  • --gpu-memory-utilization 0.98: 设置GPU内存利用率为98%。
  • --tensor-parallel-size 4: 设置张量并行处理的大小为4。
  • --port 8000: 在端口8000上启动服务器。

总结

通过以上步骤,我们成功使用vLLM部署了Qwen2.5-VL-7B-Instruct模型。vLLM能够显著加速大规模语言模型的推理过程,推荐大家尝试使用。

参考

  • vLLM GitHub仓库

你可能感兴趣的:(LINUX,vllm,qwen2.5-vl,7B,本地部署)