如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理,并开启api服务

环境:

云服务器Ubuntu

NVIDIA H20 96GB

Qwen2.5-VL-32B

Qwen2.5-VL-72B

问题描述:

如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理,并开启api服务

在这里插入图片描述

解决方案:

1.环境准备

硬件要求

  • 显卡1(显存需≥48GB,推荐≥64GB)
  • CUDA 11.7或更高版本
  • Python 3.8+

2.软件依赖

设置清华conda镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https

你可能感兴趣的:(实操经验专题,Qwen2.5VL32B,推理,模型部署,AI大模型,通义千问)