vllm 第2页

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

如何在vLLM中取消Qwen3的Thinking模式在使用Qwen3模型与vLLM（VeryLargeLanguageModel）进行推理服务时，你可能会发现模型默认会输出类似“我正在思考……”的提示内容

杨靳言先·2025-06-14 00:15

【vLLM 学习】Data Parallel

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-06-13 12:26

Python调用大模型LLM时,借用局域网内的算力

以下是具体实现方案及步骤：一、基础环境配置统一部署模型服务在每台局域网设备上部署大模型服务（如Ollama、vLLM等），并开放API接口。

Alex艾力的IT数字空间·2025-06-09 15:53

qwen3使用VLLM启动：vllm docker运行命令

1.停止大模型dockerstopvllm-qwen3-32b&&dockerrmvllm-qwen3-32b2.启动大模型dockerrun-d--gpusall--restartunless-stopped--networkmy_network--namevllm-qwen3-32b--shm-size=16g-v/home

Ven%·2025-06-08 08:12

架构师炼丹炉 | 大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

原文链接：大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang

双木的木·2025-06-07 18:39

五大主流大模型推理引擎深度解析：llama.cpp、vLLM、SGLang、DeepSpeed和Unsloth的终极选择指南

在人工智能的竞技场上，大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘，选错了可能连"停车场"都开不出去。这些框架的核心价值在于将训练好的"大脑"转化为实际可用的"肌肉记忆"，而选择标准则需要像职业赛车手挑选装备般精准。在人工智能的竞技场上，大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘，选错了可能连"停车场"都开不出去。这些框

我就是全世界·2025-06-07 18:37

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅

厦门德仔·2025-06-07 12:02

全面掌握 vLLM Serve：高性能 OpenAI API 兼容推理服务部署实战指南

vLLM是一款专为高效推理设计的推理引擎，支持OpenAIAPI接口，具备极强的批处理能力和优秀的内存管理性能。一、什么是vLLMServe？

@程序员小袁·2025-06-05 19:16

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

制作领域专用数据集这里制作的数据集格式为使用的aphaca格式的1.启动vllm服务python-mvllm.entrypoints.openai.api_server\--modelyour-model-path

Ven%·2025-06-05 17:33

【大模型入门指南 10】大模型推理部署：vLLM和llama.cpp

青松ᵃⁱ·2025-06-05 06:18

vLLM vs Ollama

一、介绍vLLM:VLLM（超大型语言模型）是SKYPILOT开发的推理优化框架，主要用于提升大语言模型在GPU上的运行效率。

iranw·2025-06-04 22:49

# 使用 Micromamba 安装 vLLM 并运行最小模型（facebook/opt-125m）

️环境准备系统：UbuntuPython版本：3.10包管理器：MicromambaGPU：NVIDIA（CUDA支持）创建环境并安装vLLM#创建micromamba环境micromambacreate-nvllmpython

老大白菜·2025-06-03 22:14

Python 领域 vllm 流式推理实现原理

Python领域vllm流式推理实现原理关键词：vllm、流式推理、大语言模型、推理优化、Python实现、KV缓存、注意力机制摘要：本文深入探讨了vllm（VectorizedLargeLanguageModel

Python编程之道·2025-06-02 11:05

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

情况描述环境：linuxtransformers4.39.0tokenizers0.15.2torch2.1.2+cu121flash-attn2.3.3在使用vllm运行xverse/XVERSE-13B

Cyril_KI·2025-06-02 11:03

【大模型】情绪对话模型项目研发

一、使用框架：Qwen大模型后端+Open-webui前端实现使用LLamaFactory的STF微调数据集，vllm后端部署，二、框架安装下载千问大模型安装魔塔社区库文件pipinstall modelscopeDownload.py

SSH_5523·2025-05-31 14:16

通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

一，通过vllm部署qwen3模型。

Gq.xxu·2025-05-25 01:54

Vllm框架入门及本地私有化部署

企业级大模型部署推理管理工具Part1.Vllm框架基础入门与本地私有化部署一、大模型部署框架的核心需求与主流方案对开源大模型而言，即使模型权重开源，仍需依赖框架实现运行与推理。

Zhong Yang·2025-05-22 20:28

SGLang和vllm比有什么优势？

环境：SGLangvllm问题描述：SGLang和vllm比有什么优势？解决方案：SGLang和vLLM都是在大语言模型（LLM）推理和部署领域的开源项目或框架，它们各自有不同的设计目标和优势。

玩人工智能的辣条哥·2025-05-22 05:21

JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.

环境：vllm0.8.5java17Qwen3-32B-FP8问题描述：JAVA请求vllm的api服务报错Unsupportedupgraderequest、InvalidHTTPrequestreceived.WARNING

玩人工智能的辣条哥·2025-05-22 05:20

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议一、核心维度对比二、多维度对比一览表三、选型建议SGLang、Ollama、vLLM和LLaMA.cpp四个大模型推理框架的对比及选型建议

看今朝··2025-05-20 12:21

讨论：单张4090能运行的最强开源大模型？

对于运行大型模型的最佳推理引擎，并非是llama.cpp或vllm，而是闲鱼。如果你考虑将4090显卡出售，无论换成哪种显卡，其性

斯文by累·2025-05-19 17:42

Python 领域 vllm 文本摘要功能实现

Python领域vllm文本摘要功能实现关键词：vllm、文本摘要、Python、自然语言处理、大语言模型、推理优化、量化技术摘要：本文深入探讨了如何使用vllm框架实现高效的文本摘要功能。

Python编程之道·2025-05-19 10:31

p40上编译vllm0.8.6

目录前言编译内容前言编译内容(/data1/ai-llm/env/my-vllm-gpu)[root@localhostvllm-gpu]#TORCH_CUDA_ARCH_LIST="6.1;7.0;8.0

tianjun2012·2025-05-19 02:37

vLLM - 控制生成过程中返回对数概率信息 logprobs的输出和解释

vLLM-控制生成过程中返回对数概率信息logprobs的输出和解释flyfish在vLLM的代码中，logprobs是一个控制生成过程中返回对数概率信息的参数。

二分掌柜的·2025-05-18 16:32

DeepSeek HuggingFace 70B Llama 版本（DeepSeek-R1-Distill-Llama-70B）

简简单单Onlinezuozuo：本心、输入输出、结果文章目录DeepSeekHuggingFace70BLlama版本（DeepSeek-R1-Distill-Llama-70B）前言vllm方式在本地部署

简简单单OnlineZuozuo·2025-05-17 14:22

大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

为帮助读者在繁多的框架中做出明智选择，本文将深入分析主流推理框架（如XInference、LiteLLM、LMDeploy、SGLang、vLLM等）的功能特性、性能表现、易用性及适用场景。

和老莫一起学AI·2025-05-16 15:12

VLLM快速部署大模型单卡/多卡

本人之前试过Xinference和Ollama，这两个遇到了因为其他软件不兼容或者无安装软件权限导致安装失败，vllm是python包，不需要安装软件所以更方便。

the_3rd_bomb·2025-05-12 13:04

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker（二）

Qwen3-8B作为阿里云推出的混合推理模型，凭借80亿参数规模与128K超长上下文支持，展现了“快思考”与“慢思考”的协同能力，而vLLM框架则通过优化内存管理与并行计算，显著提升推理吞吐量。

开源技术探险家·2025-05-10 09:29

【 vLLM 学习】Audio Language

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-05-09 21:44

Ubuntu 单机多卡部署脚本： vLLM + DeepSeek 70B

#部署脚本：Ubuntu+vLLM+DeepSeek70B#执行前请确保：1.系统为Ubuntu20.04/22.042.拥有NVIDIA显卡(显存≥24G)#保存两个文件1init.sh初始化2、test.sh

谢平康·2025-05-08 23:14

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

目录前言一、模型量化（quantization）1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理[伪量化节点（fakequant）](https://blog.csdn.net/qq_51175703/article/details/138320834?spm=1001.2014.3001.

大模型八哥·2025-05-08 01:22

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

根据错误信息ModuleNotFoundError:Nomodulenamed'vllm._C'和你的环境日志，以下是分步骤解决方案：1.核心问题诊断vllm.

老兵发新帖·2025-05-07 13:09

【语音识别】vLLM 部署 Whisper 语音识别模型指南

本文将详细介绍如何使用vLLM（一个高效的大模型推理和服务框架）来部署Whisper-large-v3-turbo模型，构建一个可扩展的语音识别API服务。vLLM是专为大规模语言模型推理优

Encarta1993·2025-05-01 12:58

在vllm中，使用llm.generate()返回的List[RequestOutput]里面有什么参数？如何获得回答的token表示？

在使用vllm的时候，需要对输出做一个token数量的统计，但是在一般的示例里面都是如下摸样：fromvllmimportLLM,SamplingParams#Sampleprompts.prompts

m0_62488776·2025-05-01 11:51

操作指南：vLLM 部署开源大语言模型（LLM）

vLLM是一个专为高效部署大语言模型（LLM）设计的开源推理框架，其核心优势在于显存优化、高吞吐量及云原生支持。

jane_xing·2025-04-30 03:23

【自然语言处理与大模型】vLLM部署本地大模型②

举例上一篇文章已经过去了几个月，大模型领域风云变幻，之前的vLLM安装稍有过时，这里补充一个快速安装教程：#第一步：创建虚拟环境并激活进入condacreate-nvllm-0.8.4python=3.10

小oo呆·2025-04-29 04:29

transformers之SFT和VLLM部署Llama3-8b模型

目录1.环境安装2.accelerator准备3.加载llama3和数据4.训练参数配置5.微调6.vllm部署7.Llama-3-8b-instruct的使用参考1.环境安装pipinstall-q-Ubitsandbytespipinstall-q-Ugit

AIVoyager·2025-04-28 10:06

vLLM 部署 DeepSeek 大模型避坑指南

本文基于实战经验，提供从环境准备到性能调优的全流程避坑指南。一、环境准备：驱动与硬件兼容性1.NVIDIA驱动与CUDA版本对齐确保NVIDIA驱动和CUDA版本相互匹配是关键。例如，CUDA12.x需要至少525.60+的驱动版本。#使用nvidia-smi查看驱动状态nvidia-smi#确认CUDA版本是否与PyTorch安装版本一致nvcc--version2.物理设备识别与资源竞争多GP

来自于狂人·2025-04-26 12:09

Linux服务器部署vLLM环境实战教程

一、vLLM环境配置在开始之前，请确保您已准备好以下物品：基于Linux的操作系统（推荐Ubuntu20.04+）已安装-Python：3.9–3.12NVIDIA驱动程序525+、CUDA11.8+（

伪_装·2025-04-26 08:46

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker（二）

一、前言目前，大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。另外，使用Docker实现便捷测试成为一种高效的解决方案。通过将模型及其运行环境封装在Docker容器中，开发者可以确保模型在不同环境下的行为一致性，避免由于环境差异导致的不可预见的错误。Docker的轻量级特性使得测试可以迅速部署

开源技术探险家·2025-04-26 00:48

GUF 最初是为 llama.cpp 项目开发的

它得到了许多知名推理运行时的支持，包括llama.cpp、ollama和vLLM。目前，GGUF主要用于语言模型。虽然也可以将其用

·2025-04-23 00:21

vLLM - 高性能LLM推理引擎

文章目录前言大型语言模型(LLM)部署工具对比Ollama和vLLM的一些选型建议vLLM简介vLLM安装部署使用pip安装遇到的问题解决HuggingFace获取模型huggingface-cli下载模型安装依赖下载模型

天氰色等烟雨·2025-04-17 19:35

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

hiyouga/LLaMA-Factory目录项目特色性能指标模型训练方法数据集软硬件依赖使用安装LLaMAFactory数据准备快速开始LLaMABoard可视化微调（由Gradio驱动）构建Docker利用vLLM

Jackilina_Stone·2025-04-13 07:52

安装vllm

查看版本对应关系，下载12.1对应的whl包，https://github.com/vllm-project/vllm/

m0_52111823·2025-04-12 05:00

Ollama与vLLM部署对比：哪个更合适？

Ollama与vLLM部署对比：哪个更合适？耗子口袋大数据2024年11月25日20:56重庆近年来，大语言模型（LLM）的应用日益广泛，而高效的部署方案至关重要。

强化学习曾小健2·2025-04-10 19:51

vLLM 与 Ollama 部署与应用

目录一、vLLM与FastChat的Docker部署指南1.环境准备2.安装Docker和NVIDIAContainerToolkit3.拉取并运行vLLMDocker镜像️二、Ollama的本地多模型部署方案

张3蜂·2025-04-10 18:15

vLLM实战：多机多卡大模型分布式推理部署全流程指南

1.环境准备与基础配置1.1系统要求依赖组件：#基础工具安装sudoapt-getinstall-ylsofgit-lfsnvidia-cuda-toolkit1.2虚拟环境配置使用conda创建隔离环境，避免依赖冲突：condacreate-nvllmpython=3.10-ycondaactivatevllm#配置conda源加速condaconfig--addchannelsconda-fo

SYC_MORE·2025-04-10 09:12

【vLLM 学习】调试技巧

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

HyperAI超神经·2025-04-09 07:51

使用 JSON Schema 实现语言模型的结构化输出：跨平台实践指南

本文将探讨如何通过JSONSchema约束模型输出，并以动态输入的近义词查询为例，分析其在Ollama、vLLM、SGLang和OpenAI等平台上的实现方式。

田猿笔记·2025-04-09 05:44

QLoRA 精调模型如何部署上线？FastAPI 封装 × Docker 打包 × 多模型热切换实战指南

“要不要上vLLM？用Docker好不好？”我们先快速了解几种常见的部署方式，然后再进入实战。部署方式对比

AI筑梦师·2025-04-07 03:53

推荐频道

vllm

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

【vLLM 学习】Data Parallel

Python调用大模型LLM时,借用局域网内的算力

qwen3使用VLLM启动：vllm docker运行命令

架构师炼丹炉 | 大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

五大主流大模型推理引擎深度解析：llama.cpp、vLLM、SGLang、DeepSpeed和Unsloth的终极选择指南

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

全面掌握 vLLM Serve：高性能 OpenAI API 兼容推理服务部署实战指南

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

【大模型入门指南 10】大模型推理部署：vLLM和llama.cpp

vLLM vs Ollama

# 使用 Micromamba 安装 vLLM 并运行最小模型（facebook/opt-125m）

Python 领域 vllm 流式推理实现原理

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

【大模型】情绪对话模型项目研发

通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

Vllm框架入门及本地私有化部署

SGLang和vllm比有什么优势？

JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议

讨论：单张4090能运行的最强开源大模型？

Python 领域 vllm 文本摘要功能实现

p40上编译vllm0.8.6

vLLM - 控制生成过程中返回对数概率信息 logprobs的输出和解释

DeepSeek HuggingFace 70B Llama 版本 （DeepSeek-R1-Distill-Llama-70B）

大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

VLLM快速部署大模型 单卡/多卡

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker（二）

【 vLLM 学习】Audio Language

Ubuntu 单机多卡部署脚本： vLLM + DeepSeek 70B

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

【语音识别】vLLM 部署 Whisper 语音识别模型指南

在vllm中，使用llm.generate()返回的List[RequestOutput]里面有什么参数？如何获得回答的token表示？

操作指南：vLLM 部署开源大语言模型（LLM）

【自然语言处理与大模型】vLLM部署本地大模型②

transformers之SFT和VLLM部署Llama3-8b模型

vLLM 部署 DeepSeek 大模型避坑指南

Linux服务器部署vLLM环境实战教程

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-Docker（二）

GUF 最初是为 llama.cpp 项目开发的

vLLM - 高性能LLM推理引擎

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

安装vllm

Ollama与vLLM部署对比：哪个更合适？

vLLM 与 Ollama 部署与应用

vLLM实战：多机多卡大模型分布式推理部署全流程指南

【vLLM 学习】调试技巧

使用 JSON Schema 实现语言模型的结构化输出：跨平台实践指南

QLoRA 精调模型如何部署上线？FastAPI 封装 × Docker 打包 × 多模型热切换实战指南

DeepSeek HuggingFace 70B Llama 版本（DeepSeek-R1-Distill-Llama-70B）

VLLM快速部署大模型单卡/多卡