小树苗m

Sglang部署大模型常用参数详解

- 常用启动命令
- HTTP服务器配置
- API配置
- 并行处理
- - 张量并行
  - 数据并行
  - 专家并行
- 内存和调度
- 其他运行时选项
- 日志记录
- 多节点分布式服务
- LoRA
- 内核后端
- 约束解码
- 推测解码
- 双稀疏性
- 调试选项
- 优化选项
- 参数概览

常用启动命令

要启用多GPU张量并行性，请添加 --tp 2。如果报告错误“这些设备之间不支持对等访问”，请在服务器启动命令中添加 --enable-p2p-check。

python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --tp 2

要启用多 GPU 数据并行，请添加–dp 2。如果内存足够，数据并行对吞吐量更有利。它也可以与张量并行一起使用。以下命令总共使用 4 个 GPU。我们建议使用SGLang Router进行数据并行。

python -m sglang_router.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --dp 2 --tp 2

如果在服务过程中出现内存不足错误，请尝试通过设置较小的值来减少 KV 缓存池的内存使用量–mem-fraction-static。默认值为0.9。

python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --mem-fraction-static 0.7

果在长提示的预填充过程中看到内存不足错误，请尝试设置较小的分块预填充大小。

python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --chunked-prefill-size 4096

要启用torch.compile加速，请添加 --enable-torch-compile。它可以在小批量大小上加速小型模型。但目前这不适用于FP8。你可以参考“为torch.compile启用缓存”以获取更多详情。
要启用torchao量化，请添加 --torchao-config int4wo-128。它也支持其他的量化策略（INT8/FP8）。
要启用fp8权重量化，在fp16检查点上添加 --quantization fp8 或直接加载一个fp8检查点，无需指定任何参数。
要启用fp8 kv缓存量化，请添加 --kv-cache-dtype fp8_e5m2。
如果模型在Hugging Face的tokenizer中没有聊天模板，可以指定一个自定义聊天模板。
要在多个节点上运行张量并行，请添加 --nnodes 2。如果你有两个节点，每个节点上有两个GPU，并希望运行TP=4，假设sgl-dev-0是第一个节点的主机名且50000是一个可用端口，你可以使用以下命令。如果遇到死锁，请尝试添加 --disable-cuda-graph。

# Node 0
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --tp 4 --dist-init-addr sgl-dev-0:50000 --nnodes 2 --node-rank 0

# Node 1
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --tp 4 --dist-init-addr sgl-dev-0:50000 --nnodes 2 --node-rank 1

模型和分词器参数说明：

model_path: 模型存放的路径，该模型将会被加载用于服务。
tokenizer_path: 默认与model_path相同。这是分词器文件所在的路径。
tokenizer_mode: 默认为auto模式，具体不同模式可以参考相关文档。
load_format: 权重文件的格式，默认是*.safetensors/*.bin。
trust_remote_code: 如果设置为True，则使用本地缓存的配置文件；否则使用HuggingFace中的远程配置。
dtype: 用于模型的数据类型，默认是bfloat16。
kv_cache_dtype: kv缓存使用的数据类型，默认与dtype相同。
context_length: 模型能够处理的token数量，包括输入的tokens。请注意扩展默认值可能会导致奇怪的行为。
device: 模型部署的设备，默认是cuda。
chat_template: 使用的聊天模板。不使用默认模板可能导致意外的回复。对于多模态聊天模板，请参阅相关部分。确保传递正确的chat_template，否则可能导致性能下降。
is_embedding: 设置为true以执行嵌入/编码和奖励任务。
revision: 如果需要使用模型的特定版本，可以通过此参数调整。
skip_tokenizer_init: 设置为true时，提供tokens给引擎并直接获取输出tokens，通常在RLHF中使用。请参考提供的示例。
json_model_override_args: 使用提供的JSON覆盖模型配置。
delete_ckpt_after_loading: 加载模型后删除模型检查点。
服务：HTTP & API

HTTP服务器配置

port 和 host: 设置HTTP服务器的主机地址。默认情况下，host: str = "127.0.0.1"（即本地回环地址）和port: int = 30000。

API配置

api_key: 设置服务器和兼容OpenAI的API的API密钥。
file_storage_path: 用于存储从API调用中上传或生成的文件的目录。
enable_cache_report: 如果设置了此选项，则在响应使用情况中包括缓存token使用的详细信息。

并行处理

张量并行

tp_size: 模型权重分片所用的GPU数量。主要用于节省内存而不是提高吞吐量，详情见相关博客文章。

数据并行

dp_size: 将被弃用。模型的数据并行副本的数量。推荐使用SGLang路由器代替当前的简单数据并行。
load_balance_method: 将被弃用。数据并行请求的负载均衡策略。

专家并行

enable_ep_moe: 启用专家并行，将MoE模型中的专家分布到多个GPU上。
ep_size: EP（专家并行）的大小。请以tp_size=ep_size的方式分割模型权重，具体基准测试参见PR。如果未设置，ep_size会自动设置为tp_size。

内存和调度

mem_fraction_static: 用于静态内存（如模型权重和KV缓存）的空闲GPU内存的比例。如果构建KV缓存失败，应该增加此值；如果CUDA内存不足，则应减少。
max_running_requests: 并发运行的最大请求数量。
max_total_tokens: 可以存储到KV缓存中的最大token数。主要用于调试。
chunked_prefill_size: 以这些大小的块执行预填充。较大的块大小加快了预填充阶段但增加了VRAM消耗。如果CUDA内存不足，应减少此值。
max_prefill_tokens: 一个预填充批次中接受的token预算。实际数字是此参数与context_length之间的最大值。
schedule_policy: 控制单个引擎中等待预填充请求的处理顺序的调度策略。
schedule_conservativeness: 用于调整服务器在接收新请求时的保守程度。高度保守的行为会导致饥饿，而较低的保守性会导致性能下降。
cpu_offload_gb: 为卸载到CPU的模型参数保留的RAM量（GB）。

其他运行时选项

stream_interval: 流式响应的间隔（按token计）。较小的值使流式传输更平滑，较大的值提供更好的吞吐量。
random_seed: 用于强制更确定性的行为。
watchdog_timeout: 调整看门狗线程的超时时间，在批处理生成花费过长时间时终止服务器。
download_dir: 用于覆盖Hugging Face默认的模型权重缓存目录。
base_gpu_id: 用于调整第一个用于跨可用GPU分配模型的GPU。
allow_auto_truncate: 自动截断超过最大输入长度的请求。

日志记录

log_level: 全局日志详细级别。
log_level_http: HTTP服务器日志的独立详细级别（如果未设置，默认为log_level）。
log_requests: 记录所有请求的输入和输出以进行调试。
show_time_cost: 打印或记录内部操作的详细计时信息（有助于性能调优）。
enable_metrics: 导出类似于Prometheus的请求使用情况和性能指标。
decode_log_interval: 记录解码进度的频率（按token计）。

多节点分布式服务

dist_init_addr: 用于初始化PyTorch分布式后端的TCP地址（例如192.168.0.2:25000）。
nnodes: 集群中的总节点数。参考如何运行Llama 405B模型。
node_rank: 在分布式设置中该节点在nnodes中的排名（ID）。

LoRA

lora_paths: 可以为您的模型提供一系列适配器作为列表。每个批次元素都会获得应用相应LoRA适配器的模型响应。目前cuda_graph和radix_attention不支持此选项，因此需要手动禁用。
max_loras_per_batch: 运行批次中包括基本模型在内的最大LoRAs数量。
lora_backend: LoRA模块运行GEMM内核的后端，可以是triton或flashinfer之一，默认为triton。

内核后端

attention_backend: 注意力计算和KV缓存管理的后端。
sampling_backend: 采样的后端。

约束解码

grammar_backend: 约束解码的语法后端。详细使用方法见相关文档。
constrained_json_whitespace_pattern: 与Outlines语法后端一起使用，允许JSON包含语法上的换行符、制表符或多空格。详情见此处。

推测解码

speculative_draft_model_path: 用于推测解码的草稿模型路径。
speculative_algorithm: 推测解码的算法。当前仅支持Eagle。注意，在使用eagle推测解码时，radix缓存、分块预填充和重叠调度器将被禁用。
speculative_num_steps: 在验证前运行多少次草稿。
speculative_num_draft_tokens: 草稿中提议的token数量。
speculative_eagle_topk: 每一步为Eagle保留进行验证的顶级候选者数量。
speculative_token_map: 可选，指向FR-Spec高频token列表的路径，用于加速Eagle。

双稀疏性

enable_double_sparsity: 启用双稀疏性，提高吞吐量。
ds_channel_config_path: 双稀疏配置。关于如何为您的模型生成配置，请参阅此仓库。
ds_heavy_channel_num: 每层要保持的通道索引数量。
ds_heavy_token_num: 解码期间用于注意力的token数量。如果批次中的min_seq_len小于该数字，则跳过稀疏解码。
ds_heavy_channel_type: 重型通道的类型。可以是q、k或qk。
ds_sparse_decode_threshold: 如果批次中的max_seq_len小于该阈值，则不应用稀疏解码。

调试选项

disable_radix_cache: 禁用Radix后端用于前缀缓存。
disable_cuda_graph: 禁用cuda图用于模型前向传播。如果遇到无法纠正的CUDA ECC错误，请使用此选项。
disable_cuda_graph_padding: 当需要填充时禁用cuda图。在其他情况下仍然使用cuda图。
disable_outlines_disk_cache: 禁用outlines语法后端的磁盘缓存。
disable_custom_all_reduce: 禁用自定义all reduce内核的使用。
disable_mla: 禁用Deepseek模型的多头潜在注意力(MLA)。
disable_overlap_schedule: 禁用重叠调度器。
enable_nan_detection: 开启此选项会使采样器在logits包含NaN时打印警告。
enable_p2p_check: 关闭默认允许始终进行GPU访问时的p2p检查。
triton_attention_reduce_in_fp32: 在triton内核中，这会将中间注意力结果转换为float32。

优化选项

enable_mixed_chunk: 启用混合预填充和解码，详见讨论。
enable_dp_attention: 启用Deepseek模型的数据并行注意力。请注意，您需要选择dp_size = tp_size。
enable_torch_compile: 使用torch编译模型。注意，编译模型耗时较长但能显著提升性能。编译后的模型也可以缓存以备将来使用。
torch_compile_max_bs: 使用torch_compile时的最大批量大小。
cuda_graph_max_bs: 使用cuda图时调整最大批量大小。默认根据GPU规格为您选择。
cuda_graph_bs: CudaGraphRunner捕获的批量大小。默认自动完成。
torchao_config: 实验性功能，使用torchao优化模型。可能的选择有：int8dq, int8wo, int4wo-, fp8wo, fp8dq-per_tensor, fp8dq-per_row。
triton_attention_num_kv_splits: 用于调整triton内核中的KV分割数量。默认是8。
enable_flashinfer_mla: 使用带有flashinfer MLA包装器的注意力后端用于Deepseek模型。提供此参数时，将覆盖attention_backend参数。
flashinfer_mla_disable_ragged: 当启用enable_flashinfer_mla时，应使用此选项禁用ragged预填充包装器。

参数概览

-h, --help            显示帮助信息并退出
  --model-path MODEL_PATH
                        模型权重的路径。可以是本地文件夹或Hugging Face仓库ID。
  --tokenizer-path TOKENIZER_PATH
                        分词器的路径。
  --host HOST           服务器的主机地址。
  --port PORT           服务器的端口。
  --tokenizer-mode {auto,slow}
                        分词器模式。'auto'会使用可用的快速分词器，而'slow'总是使用慢速分词器。
  --skip-tokenizer-init
                        如果设置，跳过初始化分词器，并在生成请求时传递input_ids。
  --load-format {auto,pt,safetensors,npcache,dummy,gguf,bitsandbytes,layered}
                        要加载的模型权重格式。“auto”将尝试以safetensors格式加载权重，如果不可用则回退到pytorch bin格式。“pt”将以pytorch bin格式加载权重。“safetensors”将以safetensors格式加载权重。“npcache”将以pytorch格式加载权重并在numpy缓存中存储以加快加载速度。“dummy”将使用随机值初始化权重，主要用于性能分析。“gguf”将以gguf格式加载权重。“bitsandbytes”将使用bitsandbytes量化加载权重。“layered”逐层加载权重，以便在一个层被量化之前加载另一个层，从而减小峰值内存占用。
  --trust-remote-code   是否允许Hub上自定义模型在其自己的建模文件中定义。
  --dtype {auto,half,float16,bfloat16,float,float32}
                        模型权重和激活的数据类型。* "auto"对FP32和FP16模型使用FP16精度，对BF16模型使用BF16精度。 * "half"为FP16。推荐用于AWQ量化。 * "float16"与"half"相同。 * "bfloat16"在精度和范围之间取得平衡。 * "float"是FP32精度的简写。 * "float32"为FP32精度。
  --kv-cache-dtype {auto,fp8_e5m2,fp8_e4m3}
                        KV缓存存储的数据类型。“auto”将使用模型数据类型。“fp8_e5m2”和“fp8_e4m3”支持CUDA 11.8+。
  --quantization-param-path QUANTIZATION_PARAM_PATH
                        包含KV缓存缩放因子的JSON文件的路径。当KV缓存数据类型为FP8时通常需要提供。否则，默认缩放因子为1.0，可能导致准确性问题。
  --quantization {awq,fp8,gptq,marlin,gptq_marlin,awq_marlin,bitsandbytes,gguf,modelopt,w8a8_int8}
                        量化方法。
  --context-length CONTEXT_LENGTH
                        模型的最大上下文长度。默认为None（将使用模型config.json中的值）。
  --device {cuda,xpu,hpu,cpu}
                        设备类型。
  --served-model-name SERVED_MODEL_NAME
                        覆盖OpenAI API服务器v1/models端点返回的模型名称。
  --chat-template CHAT_TEMPLATE
                        内置聊天模板名称或聊天模板文件的路径。仅用于兼容OpenAI API的服务器。
  --is-embedding        是否将CausalLM用作嵌入模型。
  --revision REVISION   使用的具体模型版本。可以是分支名、标签名或提交ID。未指定时，使用默认版本。
  --mem-fraction-static MEM_FRACTION_STATIC
                        用于静态分配（模型权重和KV缓存内存池）的内存比例。如果遇到内存不足错误，请使用较小的值。
  --max-running-requests MAX_RUNNING_REQUESTS
                        正在运行的最大请求数量。
  --max-total-tokens MAX_TOTAL_TOKENS
                        内存池中的最大token数量。如果未指定，将根据内存使用比例自动计算。此选项通常用于开发和调试目的。
  --chunked-prefill-size CHUNKED_PREFILL_SIZE
                        分块预填充中每个块的最大token数量。设置为-1表示禁用分块预填充。
  --max-prefill-tokens MAX_PREFILL_TOKENS
                        预填充批次中的最大token数量。实际限制将是此值和模型最大上下文长度之间的较大值。
  --schedule-policy {lpm,random,fcfs,dfs-weight}
                        请求的调度策略。
  --schedule-conservativeness SCHEDULE_CONSERVATIVENESS
                        调度策略的保守程度。较大的值意味着更保守的调度。如果经常看到请求被撤回，请使用较大的值。
  --cpu-offload-gb CPU_OFFLOAD_GB
                        为CPU卸载保留的RAM GB数。
  --prefill-only-one-req PREFILL_ONLY_ONE_REQ
                        如果为true，则每次预填充仅处理一个请求。
  --tensor-parallel-size TENSOR_PARALLEL_SIZE, --tp-size TENSOR_PARALLEL_SIZE
                        张量并行大小。
  --stream-interval STREAM_INTERVAL
                        流式传输的间隔（或缓冲区大小），按token长度计算。较小的值使流式传输更平滑，而较大的值提高吞吐量。
  --stream-output       是否作为一系列不连续的段输出。
  --random-seed RANDOM_SEED
                        随机种子。
  --constrained-json-whitespace-pattern CONSTRAINED_JSON_WHITESPACE_PATTERN
                        JSON约束输出中允许的语法空白的正则表达式模式。例如，要允许模型生成连续的空格，请将模式设置为[\n\t ]*
  --watchdog-timeout WATCHDOG_TIMEOUT
                        设置看门狗超时时间（秒）。如果前向批处理花费的时间超过此值，服务器将崩溃以防止挂起。
  --download-dir DOWNLOAD_DIR
                        模型下载目录。
  --base-gpu-id BASE_GPU_ID
                        开始分配GPU的基础GPU ID。在单台机器上运行多个实例时很有用。
  --log-level LOG_LEVEL
                        所有记录器的日志级别。
  --log-level-http LOG_LEVEL_HTTP
                        HTTP服务器的日志级别。如果没有设置，默认重用--log-level。
  --log-requests        记录所有请求的输入和输出。
  --show-time-cost      显示自定义标记的时间成本。
  --enable-metrics      启用日志Prometheus指标。
  --decode-log-interval DECODE_LOG_INTERVAL
                        解码批次的日志间隔。
  --api-key API_KEY     设置服务器的API密钥。也用于兼容OpenAI API的服务器。
  --file-storage-pth FILE_STORAGE_PTH
                        后端文件存储的路径。
  --enable-cache-report
                        返回openai请求中usage.prompt_tokens_details中的缓存token数量。
  --data-parallel-size DATA_PARALLEL_SIZE, --dp-size DATA_PARALLEL_SIZE
                        数据并行大小。
  --load-balance-method {round_robin,shortest_queue}
                        数据并行性的负载均衡策略。
  --expert-parallel-size EXPERT_PARALLEL_SIZE, --ep-size EXPERT_PARALLEL_SIZE
                        专家并行大小。
  --dist-init-addr DIST_INIT_ADDR, --nccl-init-addr DIST_INIT_ADDR
                        初始化分布式后端的主机地址（例如`192.168.0.2:25000`）。
  --nnodes NNODES       节点数量。
  --node-rank NODE_RANK
                        节点排名。
  --json-model-override-args JSON_MODEL_OVERRIDE_ARGS
                        用于覆盖默认模型配置的JSON字符串格式的字典。
  --lora-paths [LORA_PATHS ...]
                        LoRA适配器列表。可以提供str格式的路径列表，或{名称}={路径}的重命名路径格式。
  --max-loras-per-batch MAX_LORAS_PER_BATCH
                        运行批次中的最大适配器数量，包括仅基础模型的请求。
  --lora-backend LORA_BACKEND
                        选择多LoRA服务的内核后端。
  --attention-backend {flashinfer,triton,torch_native}
                        选择注意力层的内核。
  --sampling-backend {flashinfer,pytorch}
                        选择采样层的内核。
  --grammar-backend {xgrammar,outlines}
                        选择语法引导解码的后端。
  --enable-flashinfer-mla
                        启用FlashInfer MLA优化
  --speculative-algorithm {EAGLE}
                        推测算法。
  --speculative-draft-model-path SPECULATIVE_DRAFT_MODEL_PATH
                        草稿模型权重的路径。可以是本地文件夹或Hugging Face仓库ID。
  --speculative-num-steps SPECULATIVE_NUM_STEPS
                        在推测解码中从草稿模型采样的步骤数。
  --speculative-num-draft-tokens SPECULATIVE_NUM_DRAFT_TOKENS
                        在推测解码中从草稿模型采样的token数。
  --speculative-eagle-topk {1,2,4,8}
                        在eagle2每步中从草稿模型采样的token数。
  --enable-double-sparsity
                        启用双重稀疏性注意力
  --ds-channel-config-path DS_CHANNEL_CONFIG_PATH
                        双重稀疏性通道配置的路径
  --ds-heavy-channel-num DS_HEAVY_CHANNEL_NUM
                        双重稀疏性注意力中的重型通道数量
  --ds-heavy-token-num DS_HEAVY_TOKEN_NUM
                        双重稀疏性注意力中的重型token数量
  --ds-heavy-channel-type DS_HEAVY_CHANNEL_TYPE

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
vllm本地台式机运行(3070显存8G) 名明鸣冥 python Qwen vllm 大模型部署
ollama和vllm的对比这块对比网上都很多资料了，这边使用上简单感觉就是ollama很方便部署,占用资料更少,但后续性能会差点,各选项也不一样.ollama安装和使用和docker很像,就不赘述了,这里是看vllm的安装硬件情况介绍30708G显存+-------------------------------------------------------------------------
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
在Ubuntu24.04搭建VLLM， SGLang 和 LangChain环境小熊冲！冲！冲！ AI ubuntu langchain ai 毕业设计
在Ubuntu24.04搭建VLLM，SGLang和LangChain环境[!NOTE]概述整片文章是笔者的回忆(白天忙碌了一天，晚上进行的总结)，所以有些地方的描述可能有误差，本文更多的是大体方向问题，细节步骤不是本文的重点，见谅!!!如何安装Ubuntu24.04制作启动U盘，作者使用的是rufus.exe工具下载Ubuntu24.04的ISO镜像使用rufus.exe工具刷入Ubuntu22
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
八大国产 AI 模型全景对比：阿里 Qwen、百度文心、腾讯混元、字节豆包、华为盘古、DeepSeek、Kimi、MiniMax 的技术解析与选型指南 charles666666 人工智能百度交互语言模型 transformer 产品经理
“在国产AI模型百花齐放的今天，企业技术决策者稍有不慎，就可能陷入性能与成本的双重困境。如何穿越技术迷雾，找到真正适配业务场景的那把钥匙？”一、开篇引言当技术选型决定企业AI落地成败，你还在凭感觉决策吗？当前国产AI模型市场，模型同质化现象严重，各厂商宣传资料中充满夸张的性能指标，但真正落地到企业实际业务场景中，却常常出现适配性不佳、部署成本不可控等问题。企业急需一份基于真实数据与场景验证的深度解
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
大模型基础知识（万字详解）掘金安东尼 python 机器学习人工智能
在数学上，deepseek多轮自蒸馏可以理解为对学生模型施加一系列滚动KL散度约束：LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^{n}\alpha_i\cdot\text{KL}(p_{T_i}(x)\parallelp_{S_i}(x))LMSD=i=1∑nαi⋅KL(pTi(x)∥pSi(x))其中，TiT_iTi和Si
Spring AI 实战：第六章、Spring AI源码浅析之一山可容二虎 liaokailin Spring AI 实战人工智能 spring java
目录（如果文章对您有一丢丢输入，请点赞、收藏、转发吧~）源码开篇、大模型时代：我们正站在浪潮之巅第一章、SpringAI入门之DeepSeek调用第二章、SpringAI提示词之玩转AI占卜的艺术第三章、SpringAI结构化输出之告别杂乱无章第四章、SpringAI多模态之看图说话第五
生成式引擎优化（GEO）在 Google Gemini 中的实践与探索 GEO优化助手生成式引擎优化 AI搜索优化 GEO优化人工智能生成式引擎优化搜索引擎 AI搜索营销 GEO优化 Google Gemini
2025年，生成式AI（如GoogleGemini、ChatGPT、DeepSeek）已占据全球63%的互联网用户信息获取入口。用户行为从"浏览多个网页"转向"直接获取AI生成的精准答案"，这一转变使传统SEO（搜索引擎优化）面临失效风险——即使内容优质，若未被AI模型识别为"可信信源"，仍可能被淹没在信息洪流中。在此背景下，生成式引擎优化（GEO,GenerativeEngineOptimiza
谷歌官网app适配Android 15的官方指南
deepseek回答：谷歌官网提供了完整的Android15应用适配官方指南，涵盖兼容性测试工具、API迁移规范及商店审核要求，核心内容如下：一、官方适配指南入口访问Android15开发者网站核心内容：功能解读、API变更、安全策略及适配工具说明关键资源：适配工具链（兼容性框架、ADB调试）GSI系统映像下载虚拟设备配置教程⚙️二、适配工具链兼容性框架工具支持在不修改targetSdkVersi
Android项目如果项目中使用的so库都是第三方的aar包里才有so库，那么Android studio是不是可以不用安装ndk？ yzpyzp android android studio ndk
Android项目如果项目中使用的so库全都是第三方的aar包里才有so库，那么Androidstudio是不是可以不用安装ndk？deepseek回答：是的，如果项目中使用的.so库完全来自第三方aar包（即库文件已预编译并包含在aar中），那么AndroidStudio无需安装NDK。原因在于：NDK的核心作用是编译和调试原生代码（如C/C++），生成.so文件；但第三方aar包已包含编译好的
从系统架构视角解析唯识学：感官模块的二层设计 & 认知系统的漏洞修复 109702008 杂谈系统架构人工智能
作者：DeepSeek-R1标签：哲学与编程、认知科学、系统架构、佛教唯识引言：当哲学遇上系统设计在构建高可用系统时，我们常采用分层架构（如OSI七层模型）。有趣的是，1300年前的佛教唯识学派早已用类似思路解构人类认知系统。本文将用技术语言解析感官的二层模型（浮尘根/胜义根）与认知系统的两类漏洞（见惑/思惑），你会发现：佛学修行的本质竟是一场持续千年的“认知系统重构工程”。模块一：感官系统的硬件
vLLM专题（三）-快速开始 AI专题精讲大模型专题系列人工智能
本指南将帮助您快速开始使用vLLM执行：离线批量推理使用OpenAI兼容服务器进行在线服务1.先决条件操作系统：LinuxPython：3.9–3.122.安装如果您使用的是NVIDIAGPU，您可以直接使用pip安装vLLM。建议使用uv，一个非常快速的Python环境管理器，来创建和管理Python环境。请按照文档安装uv。安装uv后，您可以创建一个新的Python环境，并使用以下命令安装vL
大模型微调：从零到实践，掌握AI大模型的核心技能之之为知知 12 大模型人工智能机器学习特征工程 pytorch 深度学习大模型微调
大模型微调：从零到实践，掌握AI大模型的核心技能引言大规模语言模型（如DeepSeek、通义千问）的出现，彻底改变了自然语言处理的格局。这些模型不仅在学术界取得了突破性进展，在工业界也得到了广泛应用。对于许多初学者来说，直接训练一个完整的大型语言模型可能显得遥不可及。幸运的是，微调（Fine-tuning）技术为我们提供了一条捷径，让我们可以基于已有的预训练模型，针对特定任务进行调整，从而快速实现
函数log_a|x|导数
图像特征：log_a|x|（蓝色实线）：关于y轴对称在x=±1处经过(0,0)点当x→0⁺时y→∞，x→0⁻时y→∞当|x|→∞时y→∞1/(xlna)（红色虚线）：当x→0⁺时y→∞，x→0⁻时y→∞当|x|→∞时y→0在MATLAB中绘制函数y=log_⁡a∣x∣和y=1/xln⁡a时，需要特别注意处理x=0处的奇点。deepseek%设置参数a=2;%对数底数（可修改）%定义域：使用对数空间
AI人工智能的SGLang、vllm和YaRN大语言模型服务框架引擎的对比没刮胡子 Linux服务器技术软件开发技术实战专栏人工智能AI 人工智能语言模型自然语言处理
简介SGLang、vLLM和YaRN在大语言模型中的应用场景和功能特点有所不同，具体如下：SGLang定位：是一种专为大型语言模型（LLMs）和视觉语言模型（VLMs）设计的高效服务框架。核心特点：通过优化前端和后端语言的协同设计，提升与模型的交互速度和可控性。前端语言灵活，原生支持Python语法，提供多种原语和控制机制；后端运行时使用RadixAttention技术实现前缀缓存和跳跃式解码，支
使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量
背景要提高vllm部署的大模型吞吐量，可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手，以下是具体建议：一、提高gpu-memory-utilization的效果与操作gpu-memory-utilization控制vllm预分配的GPU内存比例（默认0.9），当前值0.35预留了过多显存，是吞吐量低的重要原因。提升空间：合理提高该值可显著增加批处理能力。例如从0.35提升到0.
CodeBuddy AI 编程助手：开启编程新时代小小怪 @ ai编程人工智能编辑器
在软件开发领域，效率与创新始终是推动行业前进的关键要素。随着人工智能技术的飞速发展，AI编程助手应运而生，为开发者带来了前所未有的便利。腾讯云推出的CodeBuddyAI编程助手，凭借其强大的功能和独特的设计，在众多同类产品中脱颖而出，成为开发者们的得力伙伴。一、产品概述CodeBuddy是腾讯自研的AI编程辅助工具，以腾讯混元（HunYuanTurboS）与DeepSeek-V3双模型作为驱动核
vllm源码解析(一)：整体架构与推理代码 m0_74825634 架构
vlllm官方代码更新频发,每个版本都有极大变动,很难说哪个版本好用.第一次阅读vllm源码是0.4.0版本,对这版圈复杂度极高的调度代码印象深刻0.4.1对调度逻辑进行重构,完全大变样,读代码速度快赶不上迭代的速度了。现在已经更新到0.5.4,经过长时间观察，发现主要的调度逻辑基本也稳定了下来,应该可以作为一个固话的版本去阅读。本文解读依据vllm0.5.4版本.没有修改任何代码,大家不必担心夹
使用python调用DeepSeek接口的几种方法 xiekj 研发管理人工智能数据库 python 机器学习深度学习
一、调用DeepSeekText模型的方式DeepSeek提供了多种方式来调用其文本模型，以下是主要的调用方式：1.API调用(推荐)importrequestsAPI_URL="https://api.deepseek.com/v1/chat/completions"API_KEY="your_api_key_here"headers={"Authorization":f"Bearer{API_
✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置杨靳言先 python docker vllm部署
一、Docker基础命令查看容器状态Bashdockerps#查看运行中的容器dockerps-a#查看所有容器（包括已停止的）查看镜像列表Bashdockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件Bashdockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai:v0.8.4打包多个镜
Android 的16 KB内存页设备需要硬件支持吗，还是只需要手机升级到Android15系统就可以 yzpyzp android 智能手机
Android的16KB内存页设备需要硬件支持吗，还是只需要手机升级到Android15系统就可以？deepseek回答：DeepSeekR1思考3秒思考过程好的，用户现在问的是Android的16KB内存页设备是否需要硬件支持，还是只需要升级到Android15系统就可以。这个问题需要结合Android系统的内存管理机制来回答。首先，内存页的大小通常是由硬件架构决定的，比如ARM的处理器可能支持
deepseek 技巧整理
1、导出word和excel功能，在使用以下提示词。请帮我列出减肥期间可以吃的水果，并分析该水果含有的营养元素，以表格的形式星现。1.要以html的方式输出2.要可以直接运行3.页面要提供可以直接下载word和excel功能
国内编程大模型哪家强？2025年最新排行榜与深度解析 i建模 AI 人工智能
国内编程大模型哪家强？2025年最新排行榜与深度解析发布日期：2025年3月8日关键词：大模型编程能力、DeepSeek、Qwen2.5-Max、CodeQwen、评测榜单一、大模型编程能力评测背景与核心标准近年来，大模型在代码生成、调试和算法优化等领域展现出巨大潜力。编程能力已成为衡量大模型技术实力的核心指标之一。目前主流的评测基准包括：HumanEval：由OpenAI推出，包含164个编程问
Android studio自带的Android模拟器都是x86架构的吗，需要把arm架构的app翻译成x86指令？ yzpyzp android android studio cpu
Androidstudio自带的Android模拟器都是x86架构的吗，需要把arm架构的app翻译成x86指令？deepseek回答：AndroidStudio自带的官方模拟器（AndroidEmulator）主要提供基于x86架构的系统镜像。当运行ARM架构的应用程序（APK）时，它需要通过动态二进制翻译（如Houdini技术）将ARM指令转换为x86指令才能执行。以下是关键细节说明：1.模拟
十分钟搞定! DeepSeek本地部署详细指南！
相信大家都感受到了，DeepSeek最近非常火，火到有时很卡顿，用不了......那么本地部署的需求也随之而来，DeepSeek作为一款开源且性能强大的大语言模型，提供了灵活的本地部署方案，让用户能够在本地环境中高效运行模型，无需支付在线API费用，自由调整和定制模型参数，同时保护数据隐私。其实很简单，几分钟就可以安装完。步骤一:安装灵魂工具OllamaOllama是一个开源工具，专门用于在本地计
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

Sglang部署大模型常用参数详解

Sglang部署大模型常用参数详解

常用启动命令

HTTP服务器配置

API配置

并行处理

张量并行

数据并行

专家并行

内存和调度

其他运行时选项

日志记录

多节点分布式服务

LoRA

内核后端

约束解码

推测解码

双稀疏性

调试选项

优化选项

参数概览

你可能感兴趣的:(sglang,vllm,deepseek)