仙人掌_lz

【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3

简介

KTransformers 是一个灵活的、以 Python 为中心的框架，旨在通过先进的内核优化和放置 / 并行策略提升 Hugging Face Transformers 的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容 Transformers 的接口、符合 OpenAI 和 Ollama 的 RESTful API，甚至简化的 ChatGPT 风格的 Web UI。
KTransformers的性能优化基本囊括了目前主流的优化手段，包括：

特点优势

内核优化：注入优化的内核，如 Llamafile 和 Marlin，提高计算效率。
量化技术：支持模型量化，减少模型大小和计算量。
并行策略：采用先进的并行策略，将计算任务分配到多个设备并行执行。
稀疏注意力：面对长文本输入，采用稀疏注意力机制，减少计算复杂度，提高推理速度。
CPU/GPU 卸载：支持将计算任务在 CPU 和 GPU 之间灵活分配，充分利用不同硬件的优势。
动态负载均衡：可根据硬件负载情况动态调整任务分配，实现负载均衡，提高整体性能。
注入框架：提供灵活的注入框架，允许用户通过 YAML 配置文件定义优化规则，替换指定模块。

本地运行DeepSeek - R1性能示例

本地运行 6710 亿参数的 DeepSeek - Coder - V3/R1：使用仅 14GB VRAM 和 382GB DRAM 运行其 Q4_K_M 版本。

****说明一下：不支持并发，项目实现了单卡体验的可能性，但绝对上不了生产！太慢！用4个自行车轱辘加上2节干电池做了一个4轮电动车，但是，但是，但是，绝对不等于==智能电动汽车！！！！

速度对比

预填充(Prefill)速度 (tokens/s) :

KTransformers: 54.21 (32 核心) → 74.362 (双插槽，2×32 核心) → 255.26 (优化的 AMX 基 MoE 内核，仅 V0.3) → 286.55 (选择性使用 6 个专家，仅 V0.3)
与 llama.cpp 在 2×32 核心下 10.31 tokens/s 相比，速度提升高达 27.79 倍

解码(Decode)速度 (tokens/s):

KTransformers: 8.73 (32 核心) → 11.26 (双插槽， 2×32 核心) → 13.69 (选择性使用 6 个专家，仅 V0.3)
与 llama.cpp 在 2×32 核心下 4.51 tokens/s 相比，速度提升高达 3.03 倍

硬件配置

最佳性能测试（V0.2）：

CPU：Intel ® Xeon ® Gold 6454S 1T 内存 (2 NUMA 节点)
GPU：4090D 24G 显存
内存：标准 DDR5 - 4800 服务器内存 (1 TB)

基准测试结果

V0.2

设置

Model: DeepseekV3-q4km (int4)
CPU: cpu_model_name: Intel ® Xeon ® Gold 6454S，每个插槽 32 核心，2 个插槽，2 个 NUMA 节点
GPU: 4090D 24G 显存
我们在充分预热后进行测试

内存占用:

单插槽: 382G 内存，至少 14GB 显存
双插槽: 1T 内存，至少 14GB 显存

基准测试结果

“6 个专家” 情况是 V0.3 预览版中内容

Prompt (500 tokens)	双插槽 Ktrans (6 个专家)	双插槽 Ktrans (8 个专家)	Single socket Ktrans (6 个专家)	Single socket Ktrans (8 个专家)	llama.cpp (8 个专家)
预填充(Prefill) token/s	97.32	82.94	65.14	54.21	10.31
解码(Decode) token/s	13.69	12.208	10.303	8.73	4.51

最高加速比在解码方面达到 3.03x 倍，在预填充方面达到 9.44x 倍。

V0.3-Preview

设置

Model: DeepseekV3-BF16 (在线量化为 CPU 的 int8 和 GPU 的 int4)
CPU: cpu_model_name: Intel ® Xeon ® Gold 6454S，每个插槽 32 核心，2 个插槽，2 个 NUMA 节点
GPU: (1~4)x 4090D 24G 显存 (更长的 prompt 需要更多显存)

内存占用:

644GB 内存，至少 14GB 显存

基准测试结果

Prompt length	1K	2K	4K	8K
KTrans (8 个专家) Prefill token/s	185.96	255.26	252.58	195.62
KTrans (6 个专家) Prefill token/s	203.70	286.55	271.08	207.20

KTrans V0.3 的预填充速度比 KTrans V0.2 快 3.45x 倍，比 llama.cpp 快 27.79x 倍。
解码速度与 KTrans V0.2（6 个专家版本）相同，因此省略。

主要加速来自于

英特尔 AMX 指令集和我们专门设计的缓存友好内存布局
专家选择策略，根据离线配置文件结果选择更少的专家

从我们对 DeepSeekV2、DeepSeekV3 和 DeepSeekR1 的研究中，当我们略微减少推理中的激活专家数量时，输出质量没有变化。但解码和预填充的速度加快了，这令人鼓舞。因此，我们的展示利用了这一发现。

如何运行

V0.2 展示

单插槽版本（32 核心）

我们的 local_chat 测试命令是:

git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
git submodule init
git submodule update
numactl -N 1 -m 1 python ./ktransformers/local_chat.py --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 33 --max_new_tokens 1000
<当您看到聊天时，按回车键加载文本提示文件>

可以是本地路径，也可以是在线路径，例如 deepseek-ai/DeepSeek-V3。如果在线连接出现问题，可以尝试使用镜像（hf-mirror.com）

也可以是在线路径，但由于其体积较大，我们建议您下载并量化模型（注意这是目录路径）

--max_new_tokens 1000 是最大输出 token 长度。如果发现答案被截断，可以增加此数字以获得更长的答案（但要注意内存不足问题，增加此数字会降低生成速度）.

命令 numactl -N 1 -m 1 的目的是避免 NUMA 节点之间的数据传输

注意！如果测试 R1 可能会跳过思考。因此，可以添加参数：--force_think true，这在常见问题解答部分中解释。

双插槽版本（64 核心）

在安装之前（使用 install.sh 或 make dev_install），请确保设置环境变量 USE_NUMA=1，方法是 export USE_NUMA=1（如果已经安装，请重新安装并设置此环境变量）

我们的 local_chat 测试命令是：

git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
git submodule init
git submodule update
export USE_NUMA=1
make dev_install # or sh ./install.sh
python ./ktransformers/local_chat.py --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000
<当您看到聊天时，按回车键加载文本提示文件>

参数的含义相同。但因为我们使用双插槽，所以将 cpu_infer 设置为 65。

V0.3 展示

双插槽版本（64 核心）

我们的 local_chat 测试命令是：

wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.1.4/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl
pip install ./ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl
python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000
<当您看到聊天时，按回车键加载文本提示文件>

参数的含义与 V0.2 相同。但因为我们使用双插槽，所以将 cpu_infer 设置为 65。

常见问题

命令参数 --cpu_infer 65 指定使用多少核心（超过物理核心数量是可以的，但并不是越多越好。根据实际核心数量适当降低此值）。
为什么使用 CPU/GPU 混合推理？
DeepSeek 的 MLA 操作符计算密集。虽然全部在 CPU 上运行是可行的，但将繁重的计算任务卸载到 GPU 上能带来巨大的性能提升。
加速来自哪里？
- 专家卸载：与传统的基于层或 KVCache 卸载（如 llama.cpp 中的）不同，我们将专家计算卸载到 CPU，将 MLA/KVCache 卸载到 GPU，与 DeepSeek 的架构完美对齐，实现最佳效率。
- 英特尔 AMX 优化 – 我们的 AMX 加速内核经过精心调优，运行速度是现有 llama.cpp 实现的数倍。我们计划在清理后开源此内核，并考虑向 llama.cpp 上游贡献代码。
为什么选择英特尔 CPU？
英特尔目前是唯一支持 AMX 类似指令的 CPU 供应商，与仅支持 AVX 的替代方案相比，性能显著更好。
KTransformers 与 vLLM 有何不同？
vLLM 是一个用于大规模部署优化的出色框架。与之不同，KTransformers 特别专注于受资源限制的本地部署场景。
KTransformers 着重挖掘异构计算的潜力，比如在量化模型的 GPU/CPU 卸载方面进行优化。
举例来说，它分别支持用于 CPU 和 GPU 的高效 Llamafile 和 Marlin 内核，以此提升本地推理性能
model_path指向的是原始的模型路径，而gguf_path指向的是量化后的GGUF格式模型文件。为什么要这么做？
KTransformers的优化策略，包括将部分参数卸载到CPU并使用GGUF格式的量化权重，而GPU部分则使用Marlin内核处理。因此，model_path可能用于加载模型的结构和部分参数，而gguf_path提供量化后的权重，用于CPU端的计算。所以，KTransformers部署时需要同时指定model_path和gguf_path:
- model_path路径指向原始的PyTorch模型，用于加载模型结构和部分未量化的参数。例如，模型中的稠密计算模块（如MLA注意力层）会保留在GPU上，利用Marlin内核加速计算。
- gguf_path指向GGUF格式的量化权重文件，用于加载CPU端的稀疏计算模块（如MoE专家层、词嵌入层）。GGUF格式通过4bit/8bit量化大幅降低内存占用，并直接调用Llamafile内核在CPU上高效执行。
如果没有足够的VRAM，但我有多个GPU，该如何利用它们？多GPU会提升推理速度吗？

修改 YAML 注入模板

KTransformers 使用 YAML 注入模板来优化和配置模型。对于多 GPU 设置，你需要在 YAML 模板中指定设备分配。以下是一个示例，展示如何将模块分配到不同的 GPU 上：

- match:
    name: "^model\\.layers\\.0$"  # 匹配模型的第一层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:0"  # 将此模块分配到GPU 0
    kwargs:
      generate_device: "cuda:0"
      generate_linear_type: "QuantizedLinearMarlin"
- match:
    name: "^model\\.layers\\.1$"  # 匹配模型的第二层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:1"  # 将此模块分配到GPU 1
    kwargs:
      generate_device: "cuda:1"
      generate_linear_type: "QuantizedLinearMarlin"

在这个示例中，模型的不同层被分配到了不同的 GPU 上。你可以根据模型的结构和你的 GPU 数量，扩展这个模板以分配更多的模块。

确保使用optimize_and_load_gguf函数，并传入正确的 YAML 配置文件

optimize_and_load_gguf函数会根据 YAML 模板中的配置，将模型模块分配到相应的 GPU 上。注意： ktransformers的多GPU策略为pipline，无法加速模型的推理，仅用于模型的权重分配。GPU/CPU混合推理deepseekR1使用了多GPU，但推理性能和单GPU一致，没有提升，多卡并不会加速推理。https://github.com/kvcache-ai/ktransformers/issues/345，用8卡4090跑的，速度还没有单卡的快

如何获得最佳性能？
必须设置–cpu_infer为要使用的核数。使用的核越多，模型运行速度越快，但并非越多越好。将其调整得略低一些，以适应实际核数。例如，–cpu_infer 65指定使用多少个核，超过物理数量是可以的，但也不是越多越好，稍微调低到实际的核心数量。
如果我获得的VRAM(也就是显存)比模型要求的多，我该如何充分利用它？

加大上下文，max_new_tokenslocal_chat.py可以以通过设置更大的值来增加上下文窗口的大小。
修改 YAML 注入模板，KTransformers 使用 YAML 注入模板来优化和配置模型。对于多 GPU 设置，你需要在 YAML 模板中指定设备分配。以下是一个示例，展示如何将模块分配到不同的 GPU 上：

- match:
    name: "^model\\.layers\\.0$"  # 匹配模型的第一层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:0"  # 将此模块分配到GPU 01，
    kwargs:
      generate_device: "cuda:0"
      generate_linear_type: "QuantizedLinearMarlin"
- match:
    name: "^model\\.layers\\.1$"  # 匹配模型的第二层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:1"  # 将此模块分配到GPU 1
    kwargs:
      generate_device: "cuda:1"
      generate_linear_type: "QuantizedLinearMarlin"

在这个示例中，模型的不同层被分配到了不同的 GPU 上。你可以根据模型的结构和你的 GPU 数量，扩展这个模板以分配更多的模块。

请问DeepseekR1-q4km在哪里下载，1.58位量化版本在哪里找？

https://huggingface.co/unsloth/DeepSeek-R1-GGUF
https://modelscope.cn/models/unsloth/DeepSeek-R1-GGUF

安装指南

1. 系统要求

操作系统：支持Linux和Windows系统。建议使用Linux系统以获得更好的性能和兼容性。
硬件：至少需要一块NVIDIA GPU以加速推理过程，若进行CPU推理，建议使用多核CPU。同时，确保系统有足够的内存来加载模型和处理数据。例如，运行某些模型可能需要24GB VRAM和相应的系统内存。

2. 安装步骤

2.1 安装Python

KTransformers依赖Python环境，推荐使用Python 3.8及以上版本。你可以从Python官方网站下载并安装Python。

2.2 安装依赖项

方法一：使用包管理器（推荐）
在项目根目录下，根据你的系统选择相应的脚本：
- Linux系统：运行install.sh脚本。该脚本会自动安装项目所需的依赖项，包括torch、transformers等。
- Windows系统：运行install.bat脚本。它会执行类似的操作，安装Windows环境下所需的依赖包。
方法二：手动安装
如果你更倾向于手动安装依赖项，可以使用pip命令。首先创建并激活虚拟环境（可选但推荐）：

# 创建虚拟环境（假设使用venv）
python -m venv myenv
# 激活虚拟环境
# 在Linux/Mac上
source myenv/bin/activate
# 在Windows上
myenv\Scripts\activate

然后安装依赖项：

pip install -r requirements.txt

requirements.txt文件包含了KTransformers运行所需的所有Python包及其版本要求。

2.3 安装KTransformers

安装完依赖项后，可以通过以下方式安装KTransformers：

从PyPI安装（稳定版本）：

pip install ktransformers

从源代码安装（开发版本）：
首先，克隆KTransformers仓库：

git clone https://github.com/kvcache-ai/ktransformers.git

然后进入项目目录并安装：

cd ktransformers
pip install -e.

-e选项表示以可编辑模式安装，这样在你修改源代码时，无需重新安装即可生效，方便开发和调试。

3. 验证安装

安装完成后，可以通过运行简单的示例脚本来验证KTransformers是否正确安装。在项目的示例目录中，有一些示例代码，例如example.py。运行该脚本：

python example.py

如果一切正常，脚本应该能够成功导入KTransformers并执行相应的操作，比如加载模型并进行推理。若遇到问题，请参考常见问题解答（FAQ）或在GitHub仓库中提交问题以获取帮助。

多GPU教程

1. 简介

KTransformers支持多GPU配置，这可以显著提升大型语言模型（LLM）的推理速度。本教程将指导你如何在KTransformers中设置和使用多GPU进行推理。

2. 系统要求

硬件：你需要一台配备多个NVIDIA GPU的机器。确保所有GPU都具有足够的显存来处理模型和输入数据。例如，对于某些大型模型，每个GPU可能需要至少12GB或更多的显存。
软件：
- 安装NVIDIA驱动程序，并且版本要与你的GPU型号和CUDA版本兼容。
- 安装CUDA Toolkit，KTransformers支持的CUDA版本在文档中有明确说明。请确保你的CUDA版本与安装的GPU驱动程序以及其他依赖项兼容。
- 按照安装指南完成KTransformers及其依赖项的安装。

3. 配置多GPU

3.1 检查GPU可用性

在使用多GPU之前，你可以通过运行以下Python代码片段来检查系统中可用的GPU：

import torch

if torch.cuda.is_available():
    num_gpus = torch.cuda.device_count()
    print(f"Detected {num_gpus} GPUs.")
else:
    print("No GPUs detected. Please check your GPU installation.")

如果代码正确检测到多个GPU，你就可以继续进行下一步配置。

3.2 修改YAML注入模板

KTransformers使用YAML注入模板来优化和配置模型。对于多GPU设置，你需要在YAML模板中指定设备分配。以下是一个示例，展示如何将模块分配到不同的GPU上：

- match:
    name: "^model\\.layers\\.0$"  # 匹配模型的第一层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:0"  # 将此模块分配到GPU 0
    kwargs:
      generate_device: "cuda:0"
      generate_linear_type: "QuantizedLinearMarlin"
- match:
    name: "^model\\.layers\\.1$"  # 匹配模型的第二层
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformerLinear
    device: "cuda:1"  # 将此模块分配到GPU 1
    kwargs:
      generate_device: "cuda:1"
      generate_linear_type: "QuantizedLinearMarlin"

在这个示例中，模型的不同层被分配到了不同的GPU上。你可以根据模型的结构和你的GPU数量，扩展这个模板以分配更多的模块。

3.3 使用多GPU进行模型加载

在代码中加载模型时，确保使用optimize_and_load_gguf函数，并传入正确的YAML配置文件。以下是一个示例：

import torch
from transformers import AutoModelForCausalLM
from ktransformers import optimize_and_load_gguf

with torch.device("meta"):
    model = AutoModelForCausalLM.from_config(config, trust_remote_code=True)
optimize_and_load_gguf(model, optimize_rule_path="path/to/your/yaml/file.yaml", gguf_path="path/to/your/model.gguf", config=config)

optimize_and_load_gguf函数会根据YAML模板中的配置，将模型模块分配到相应的GPU上。

4. 运行推理

加载模型后，你可以像往常一样进行推理。KTransformers提供了prefill_and_generate函数，它针对多GPU设置进行了优化，可以进一步提高推理速度：

from ktransformers import prefill_and_generate
import torch
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("your_model_tokenizer")
input_text = "Your input prompt here"
input_tensor = tokenizer.encode(input_text, return_tensors="pt").cuda()

generated = prefill_and_generate(model, tokenizer, input_tensor, max_new_tokens=1000)
print(generated)

这个函数会在多个GPU上并行处理输入，生成输出文本。

5. 注意事项

显存管理：在多GPU设置中，要注意显存的使用情况。确保每个GPU都有足够的显存来处理分配给它的模块和数据。如果遇到显存不足的错误，你可能需要调整模型大小、减少输入长度或优化模块分配。
模型兼容性：并非所有模型都能完美地在多GPU上进行扩展。某些模型结构可能需要特定的并行策略。在使用新模型时，请查阅相关文档或进行测试，以确保多GPU设置能够正常工作。
性能优化：为了获得最佳性能，你可能需要调整YAML模板中的设备分配策略，以及尝试不同的优化内核和参数。同时，确保你的GPU驱动程序和CUDA版本是最新的，以利用最新的性能改进。

英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
vllm本地台式机运行(3070显存8G) 名明鸣冥 python Qwen vllm 大模型部署
ollama和vllm的对比这块对比网上都很多资料了，这边使用上简单感觉就是ollama很方便部署,占用资料更少,但后续性能会差点,各选项也不一样.ollama安装和使用和docker很像,就不赘述了,这里是看vllm的安装硬件情况介绍30708G显存+-------------------------------------------------------------------------
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3

简介

特点优势

本地运行DeepSeek - R1性能示例

速度对比

硬件配置

基准测试结果

V0.2

设置

内存占用:

基准测试结果

V0.3-Preview

设置

内存占用:

基准测试结果

如何运行

V0.2 展示

单插槽版本（32 核心）

双插槽版本（64 核心）

V0.3 展示

双插槽版本（64 核心）

常见问题

安装指南

1. 系统要求

2. 安装步骤

2.1 安装Python

2.2 安装依赖项

2.3 安装KTransformers

3. 验证安装

多GPU教程

1. 简介

2. 系统要求

3. 配置多GPU

3.1 检查GPU可用性

3.2 修改YAML注入模板

3.3 使用多GPU进行模型加载

4. 运行推理

5. 注意事项

你可能感兴趣的:(人工智能,人工智能,AI,部署,自然语言处理)