vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

双卡v100 32G部署结果如下,推理时长16s

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4_第1张图片

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4_第2张图片

3卡,tensor_parallel_size=3,tensor并行的数量一定要能被attention heads整除

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4_第3张图片

 4卡,tensor_parallel_size=4,推理速度4s

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4_第4张图片

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4_第5张图片

你可能感兴趣的:(人工智能)