vllm

Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略

文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。

曦紫沐·2025-07-29 22:08

vllm本地台式机运行(3070显存8G)

ollama和vllm的对比这块对比网上都很多资料了，这边使用上简单感觉就是ollama很方便部署,占用资料更少,但后续性能会差点,各选项也不一样.ollama安装和使用和docker很像,就不赘述了,

名明鸣冥·2025-07-29 22:07

在Ubuntu24.04搭建VLLM， SGLang 和 LangChain环境

在Ubuntu24.04搭建VLLM，SGLang和LangChain环境[!

小熊冲！冲！冲！·2025-07-29 20:20

vLLM专题（三）-快速开始

本指南将帮助您快速开始使用vLLM执行：离线批量推理使用OpenAI兼容服务器进行在线服务1.先决条件操作系统：LinuxPython：3.9–3.122.安装如果您使用的是NVIDIAGPU，您可以直接使用

AI专题精讲·2025-07-28 09:38

AI人工智能的SGLang、vllm和YaRN大语言模型服务框架引擎的对比

简介SGLang、vLLM和YaRN在大语言模型中的应用场景和功能特点有所不同，具体如下：SGLang定位：是一种专为大型语言模型（LLMs）和视觉语言模型（VLMs）设计的高效服务框架。

没刮胡子·2025-07-28 00:56

使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量

背景要提高vllm部署的大模型吞吐量，可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手，以下是具体建议：一、提高gpu-memory-utilization的效果与操作gpu-memory-utilization

·2025-07-27 23:48

vllm源码解析(一)：整体架构与推理代码

vlllm官方代码更新频发,每个版本都有极大变动,很难说哪个版本好用.第一次阅读vllm源码是0.4.0版本,对这版圈复杂度极高的调度代码印象深刻0.4.1对调度逻辑进行重构,完全大变样,读代码速度快赶不上迭代的速度了

m0_74825634·2025-07-27 19:51

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

Bashdockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件Bashdockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai

杨靳言先·2025-07-27 17:09

红帽AI推理服务器三大特点

无论部署在何种环境中，红帽AI推理服务器都为用户提供经过强化并获得官方支持的vLLM发行版，配套智能LLM压缩工具，以及在HuggingFace平台上优化的模型仓库。

openlabx.org.cn·2025-07-26 07:00

Qwen3 大模型开发实战指南（七）：Qwen3 Agent 实战，释放智能交互强大潜力

系列篇章No.文章01Qwen3大模型开发实战指南（一）：基于Transformers推理全攻略，开启智能应用大门02Qwen3大模型开发实战指南（二）：基于vLLM高效推理，性能飙升03Qwen3大模型开发实战指南

寻道AI小兵·2025-07-24 19:51

从 Ollama 转向 vLLM：寻求高通量 LLM 服务的稳定性

简介在过去的一年里，我一直在大量使用GraphRAG（微软版本和我自己开发的版本），我总是惊讶于文档复杂性的微小增加会造成多大的预算浪费。当我使用gpt-4.1-miniOpenAI时——仅一套文档就花费了我200多美元（！！）。即使使用gpt-4.1-nano（目前最便宜的前沿模型），我的预算也是荒谬的。为几份（确实很大的）文件花费2.15亿个代币是荒谬的，而且需要几天的时间来处理，这太过分了。

知识大胖·2025-07-24 03:38

本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大128K上下文，激活参数规模为32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。准备工作（通用部分）在进行部署前，请准备如下环境与资源：✅最低硬

迎风斯黄·2025-07-20 11:09

离线部署视觉模型Qwen2.5-VL方案【企业应用级】

二、参考环境大模型服务发布工具：VLLM=0.7.2。大模型版本：qwen2.5-vl-7b，其他版本也可。python版本：python==3.12。环境可选：docker或直接pyth

LensonYuan·2025-07-20 04:50

【vLLM 学习】Encoder Decoder Multimodal

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

HyperAI超神经·2025-07-19 20:42

vLLM快速入门：开启高效推理与部署之旅

而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。

·2025-07-19 11:13

深入解析 vLLM 分布式推理与部署策略

vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。

·2025-07-19 11:13

mac mlx大模型框架的安装和使用

1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致

liliangcsdn·2025-07-19 09:28

vllm本地部署bge-reranker-v2-m3模型API服务实战教程

文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍

雷电法王·2025-07-12 12:26

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.

汀、人工智能·2025-07-12 10:09

mac m1安装大模型工具vllm

1更新系统环境参考vllm官网文档，vllm对applem1平台macos,xcoder,clang有如下要求OS:macOSSonomaorlaterSDK:XCode15.4orlaterwithCommandLineToolsCompiler

liliangcsdn·2025-07-12 07:17

vLLM 优化与调优：提升模型性能的关键策略

vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。

强哥之神·2025-07-10 11:51

【vLLM 学习】Eagle

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-07-09 21:34

Python 领域 vllm 安装与环境配置全攻略

Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。

Python编程之道·2025-07-09 13:01

vLLM 的逻辑与运作机制

vLLM的逻辑与运作机制vLLM作为一种高效的推理框架，逐渐成为研究和应用的热点。vLLM的核心在于如何高效地管理和调度模型推理任务，以最大化利用计算资源并提高推理效率。一、vLLM是如何运作的？

a李兆洋·2025-07-08 23:26

Python 领域 vllm 优化模型推理速度的方法

Python领域vLLM优化模型推理速度的方法关键词：Python、vLLM、模型推理速度、优化方法、推理性能摘要：本文聚焦于Python领域中vLLM对模型推理速度的优化方法。

Python编程之道·2025-07-08 11:14

vllm推理实践

1.vllm推理demo实验fromvllmimportLLM,SamplingParams#定义生成参数sampling_params=SamplingParams(temperature=0.7,top_p

try2find·2025-07-07 15:12

DeepSeek-V3 私有化部署配置方案（以 vLLM / FastDeploy 为主）

以下是DeepSeek-V3私有化部署配置方案（基于vLLM/FastDeploy），适用于对模型性能、数据隐私、推理效率有要求的企业/个人部署场景。

·2025-07-06 00:55

基于昇腾910B部署Qwen3-embedding-8B模型（通过vllm 推理引擎部署）

目前基于知识库搭建，会涉及到embedding和rerank模型，目前阿里通义千问Qwen3-embedding-8B模型在网上测评效果还不错，本文基于vllm部署Qwen3-embedding-8B模型

萌新--加油·2025-07-04 04:56

云原生环境下部署大语言模型服务：以 DeepSeek 为例的实战教程

它涉及：模型推理框架（如vLLM）的集成；WebAPI封装（FastAPI等）；容器化部署与资源调度；可扩展性设计与

一ge科研小菜菜·2025-07-03 13:42

【模型部署】如何在Linux中通过脚本文件部署模型

以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!

满怀1015·2025-07-03 02:19

vLLM调度部署Qwen3

vLLM介绍在之前的文章中，我们介绍了如何使用ollama部署qwen3，一般而言，ollama适合个人部署使用，在面对企业级的模型部署时，一般更建议使用vLLMvLLM（高效大语言模型推理库）是一个专为大语言模型

你好，此用户已存在·2025-07-02 10:19

基于llama-factory+ollama+vllm加速大模型训推生产

目录一、名称解释1.1产品定义二、llama-factory工具使用2.1基础镜像2.2、模型训练2.2.1以Qwen2.5-7B-Instruct为例

zwxu_·2025-07-02 04:39

141G显存H20单机DeepSeek-R1满血FP8版性能测试

，flashinferv0.2.2#服务化命令#基于知乎大神的推荐出装与前期H800双机生产环境测试，在H20上开启EP、MLA等核心优化参数，实现推理吞吐性能最优吞吐量破10000tokens/s，VLLM0.8.1

·2025-06-29 19:18

使用vllm部署 Nanonets-OCR-s

使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。

没刮胡子·2025-06-28 23:20

VLLM：虚拟大型语言模型（Virtual Large Language Model）

VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。

大霸王龙·2025-06-27 17:57

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

vLLM（VirtualLargeLanguageModel）是一个开源的高性能推理和服务的框架，专为大语言模型（LLM）设计，旨在优化推理速度、内存效率和吞吐量。

彬彬侠·2025-06-27 17:54

开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！

一、模型介绍MiniMax-M1是由中国AI公司MiniMax于2025年6月17日推出的全球首个开源大规模混合架构推理模型，凭借其百万级上下文支持、超高效计算性能和突破性成本表现，成为大模型领域的新标杆。MiniMax-M1型号可以在配备8个H800或8个H20GPU的单个服务器上高效运行。在硬件配置方面，配备8个H800GPU的服务器可以处理多达200万个令牌的上下文输入，而配备8个H20GP

算家计算·2025-06-27 07:17

【vLLM 学习】Disaggregated Prefill

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-06-25 16:27

vllm docker容器部署大语言模型

什么是VLLM？VLLM（VeryLargeLanguageModelInference）是一个高性能、优化显存管理的大模型推理引擎。

zhangxiangweide·2025-06-25 07:15

创建vllm的docker镜像和容器

dockerrun-dit--gpusall--ipc=host--namevLLM-p3001:80-v/mnt/d0/checkpoints:/modelspython:3.11在新建的容器内部安装vllm

zhangxiangweide·2025-06-25 07:15

vLLM专题（十三）-结构化输出（Structured Outputs）

vLLM支持使用outlines、lm-format-enforcer或xgrammar作为引导解码的后端来生成结构化输出。本文档展示了一些可用于生成结构化输出的不同选项示例。

AI专题精讲·2025-06-23 05:59

大模型系列——VLLM 部署当前最火大模型llama4

大模型——VLLM部署当前最火大模型llama4最近llama4火车圈了，不愧是大模型界的当红炸子鸡，号称宇宙最强大模型，这里我们快速尝鲜，看看怎么快速部署，首先我们需要知道当前的llama4是没有办法用

猫猫姐·2025-06-22 22:41

如何用cURL测试Ollama和vLLM的大模型服务运行状态

在部署大模型服务（如Ollama或vLLM）后，快速验证服务是否正常运行至关重要。cURL作为轻量级命令行工具，能直接发送HTTP请求到模型API，通过解析响应确认服务状态，无需编写额外代码。

Ven%·2025-06-21 09:16

DeepSeek 大型 MoE 模型大规模部署压测学习

DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs》的中文总结，以及对您提到的几个术语（MLA、MoE、SGLang、VLLM

andyguo·2025-06-18 12:14

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai

·2025-06-17 18:16

Ollama vs. vLLM

Ollama和vLLM并非竞争关系，而是满足不同需求的互补工具。Ollama极大地降低了大众接触和使用大模型的门槛，而vLLM则为严肃的、规模化的AI应用提供了坚实的性能基石。

frostmelody·2025-06-16 23:37

深入探究 Python 领域 vllm 的核心功能_副本

深入探究Python领域vLLM的核心功能：让大模型推理像高铁一样高效关键词：vLLM、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要：大语言模型（LLM）的推理效率一直是工业落地的

Python编程之道·2025-06-16 22:58

speculative decoding: SpecInfer

speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足30%内存墙：KV缓存占用显存，长文本场景下并发请求数锐减现有方案（如vLLM

Jay Kay·2025-06-14 12:29

一文搞定离线环境下的RAG引擎部署

如何在这种严苛的环境下，完整、可靠地部署一套包含向量数据库、**高性能推理服务（vLLM）**和Python后台的复杂RAG系统呢？本文将为你提供

木鱼时刻·2025-06-14 08:05

推荐频道

vllm

Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略

vllm本地台式机运行(3070显存8G)

在Ubuntu24.04搭建VLLM， SGLang 和 LangChain环境

vLLM专题（三）-快速开始

AI人工智能的SGLang、vllm和YaRN大语言模型服务框架引擎的对比

使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量

vllm源码解析(一)：整体架构与推理代码

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

红帽AI推理服务器三大特点

Qwen3 大模型开发实战指南（七）：Qwen3 Agent 实战，释放智能交互强大潜力

从 Ollama 转向 vLLM：寻求高通量 LLM 服务的稳定性

本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

离线部署视觉模型Qwen2.5-VL方案【企业应用级】

【vLLM 学习】Encoder Decoder Multimodal

vLLM快速入门：开启高效推理与部署之旅

深入解析 vLLM 分布式推理与部署策略

mac mlx大模型框架的安装和使用

vllm本地部署bge-reranker-v2-m3模型API服务实战教程

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

mac m1安装大模型工具vllm

vLLM 优化与调优：提升模型性能的关键策略

【vLLM 学习】Eagle

Python 领域 vllm 安装与环境配置全攻略

vLLM 的逻辑与运作机制

Python 领域 vllm 优化模型推理速度的方法

vllm推理实践

DeepSeek-V3 私有化部署配置方案（以 vLLM / FastDeploy 为主）

基于昇腾910B部署Qwen3-embedding-8B模型（通过vllm 推理引擎部署）

云原生环境下部署大语言模型服务：以 DeepSeek 为例的实战教程

【模型部署】如何在Linux中通过脚本文件部署模型

vLLM调度部署Qwen3

基于llama-factory+ollama+vllm加速大模型训推生产

141G显存H20单机DeepSeek-R1满血FP8版性能测试

使用vllm部署 Nanonets-OCR-s

VLLM：虚拟大型语言模型（Virtual Large Language Model）

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

vLLM（Virtual Large Language Model） 框架：一个开源的高性能推理和服务的框架

开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！

【vLLM 学习】Disaggregated Prefill

vllm docker容器部署大语言模型

创建vllm的docker镜像和容器

vLLM专题（十三）-结构化输出（Structured Outputs）

大模型系列——VLLM 部署 当前最火大模型llama4

如何用cURL测试Ollama和vLLM的大模型服务运行状态

DeepSeek 大型 MoE 模型大规模部署压测学习

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

Ollama vs. vLLM

深入探究 Python 领域 vllm 的核心功能_副本

speculative decoding: SpecInfer

一文搞定离线环境下的RAG引擎部署

vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

大模型系列——VLLM 部署当前最火大模型llama4