Gq.xxu

想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！

若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。

一，大模型的工作流程

大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。

从用户输入到大模型输出，整个工作的处理流程如下：

输入文本 → 分词 → 嵌入 + 位置编码 → Transformer多层处理（自注意力 + FFN） → Logits → 采样 → Token生成 → 循环直至终止 → 后处理 → 最终输出

通过上述流程，大模型实现了从原始输入到智能输出的端到端处理，其核心优势在于Transformer架构对长距离依赖的捕捉能力，以及海量参数对复杂模式的记忆与泛化实际应用中还需结合业务场景优化采样策略与后处理逻辑。下面我将对市场成熟模型的具体工作过程以及相关概念进行介绍。

（一）输入处理阶段

1.内容审查（部分模型适用）

用户输入文本首先经过敏感词过滤和合规性检查（如阿水AI大模型算法中的审查机制），确保生成内容符合伦理与法律规范。

2.分词（Tokenization）

输入文本被拆解为Token（如单词、子词或字符）。例如“Hello, AI!”可能被拆分为

['Hello', ',', 'AI', '!']

分词方法包括BPE、WordPiece等，依赖预训练的分词器实现。

3.文本预处理

包括统一大小写、去除停用词（如“的”“和”）、处理标点符号等，以降低噪声干扰

（二）向量化与位置编码

1.向量嵌入（Embedding）

每个Token通过嵌入层转换为高维向量（如768维），该向量包含语义和语法信息。例如“猫”和“狗”的向量在嵌入空间中距离较近，而“猫”和“计算机”的向量距离较远。

2.位置编码（Positional Encoding）

为每个Token添加位置信息，因为Transformer架构本身不具备顺序感知能力，需通过正弦函数或可学习参数为Token添加位置信息，确保模型理解词序（如“猫追狗”与“狗追猫”的区别）。

（三）Transformer核心处理阶段

输入向量经过多层Transformer结构（如GPT-3有96层），每层包含两个核心模块：

1.自注意力机制（Self-Attention）

通过自注意力机制实现全局语义捕捉，彻底改变传统RNN/CNN的序列处理模式。该机制允许模型动态计算每个token与序列其他位置的关联权重，例如在"猫追老鼠"的语境中，能自动建立"追"与"猫""老鼠"的语义联系。相较于RNN的线性计算，这种并行处理能力使计算效率提升10倍以上。并行计算多组注意力权重，动态聚焦关键上下文。

公式：
$\text{Attention}(Q,K,V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right)V$

符号说明：
- $Q$ ：查询矩阵（Query）
- $K$ ：键矩阵（Key）
- $V$ ：值矩阵（Value）
- $d_k$ ：键向量的维度（用于缩放点积，防止梯度爆炸）

2.前馈神经网络（Feedforward Network）

通过线性变换和非线性激活（如ReLU）进一步提取特征，公式为：

公式：
$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$

符号说明：
- $W_1, W_2$ ：权重矩阵（维度变换： $d_{\text{model}} \to d_{\text{ff}} \to d_{\text{model}}$ ）
- $b_1, b_2$ ：偏置项
- $\max(0, \cdot)$ ：ReLU激活函数

（四）推理与结果生成阶段

输出转换与概率分布

模型最后一层将隐藏状态映射为词表大小的Logits向量，通过Softmax函数转换为概率分布，表示每个Token的生成可能性。
采样策略
- 贪心采样：选择最高概率的Token（易导致重复）
- 温度采样：调整概率分布的平滑度（温度值低则结果保守，高则更具创造性）
- Top-p采样：在累积概率前p%的候选中随机选择（平衡多样性与相关性）
自回归生成

将新生成的Token重新输入模型，循环预测后续内容，直到达到终止条件（如输出结束符或达到最大长度限制）。

（五）后处理阶段

解码与文本拼接

将生成的Token序列还原为自然语言文本，例如将
```
['J', '.', 'K', '.', '罗琳']
```
拼接为“J.K.罗琳”。
结果优化

去除冗余空格、修正标点格式，部分模型结合语法检查或人工审核确保可读性。

二，模型相关参数介绍

（一）vllm引擎参数对模型的性能影响

让我们先看一个vllm部署qwen3-32b模型的命令示例：

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server \
--model /home/models/Qwen/Qwen3-32B \ #指定模型的下载路径
--served-model-name qwen3-32b \ #指定模型启动的名称，后续的api请求就使用该model—name
--dtype auto \ #表示让 vLLM 自动推断模型权重和计算时使用的数据类型
--trust-remote-code \ #表示允许加载并执行模型作者提供的自定义代码，为了支持那些未完全集成到官方库中的自定义模型
--gpu-memory-utilization 0.95 \  # 提升显存利用率
--tensor-parallel-size 2 \       # 保持双卡并行
--max-model-len 4096 \           # 限制最大序列长度
--block-size 16 \                # 优化缓存块大小
--max-num-seqs 16 \             # 提升并发吞吐
--enforce-eager \              #强制使用 PyTorch 的急切执行模式（Eager Execution），并禁用内核融合优化（如 CUDA Graphs）。其目的是在特定场景下牺牲部分性能以换取更高的兼容性或调试便利性。
--enable-chunked-prefill \       # 启用分块预填充
--enable-prefix-caching          # 激活前缀缓存
--host 0.0.0.0 --port 7180  #该组参数用于配置网络服务的监听地址和端口。

接下来我们看看这些参数是如何影响模型工作的：

以下是qwen3-8b模型启动后的日志：

1.由日志：

INFO 05-13 08:52:24 [loader.py:458] Loading weights took 5.87 seconds
INFO 05-13 08:52:24 [gpu_model_runner.py:1347] Model loading took 15.2683 GiB and 6.128082 seconds

看出模型参数加载占用 15.27 GiB 显存，在 FP16 精度下，每个参数占用 2 字节，因此模型加载时的显存占用为 8B×2 字节 / 参数 ≈ 16GB。

2.由日志：

INFO 05-13 08:54:01 [kv_cache_utils.py:634] GPU KV cache size: 112,720 tokens
INFO 05-13 08:54:01 [kv_cache_utils.py:637] Maximum concurrency for 32,768 tokens per request: 3.44x

看出：KV缓存（键值缓存）的显存占用112,720 tokens。最大支持并发数 ≈3.44。其中kv显存是根据--gpu-memory-utilization指定模型占用显存分配比例，减去模型加载资源后自动预分配的。

KV缓存显存占用=2×层数×KV头数×头维度×Token数×（数据类型位数/8)

以日志中的数值为例，假设模型参数如下（以Qwen3-8B为例）：

层数：32层
KV头数：8（GQA结构）
头维度：128
数据类型：FP16（2字节）
Token数：112,720

计算步骤：

单Token显存占用：2×32×8×128×816=131,072字节≈128KB
总显存占用：112,720 tokens×128KB=14,428,160KB≈13.76GB
单请求Block需求

单请求Block数=⌈max_model_len/block_size⌉

例如，若 max_model_len=32,768，block_size=16，则每个请求需 2048 个Block（32,768 / 16）。
最终并发数计算

最大并发数=(总Block数/单请求Block数)

例如，总Block数为7045（112,720 tokens / 16 tokens/Block），单请求需2048 Block，则并发数为 7045 / 2048 ≈ 3.44x。

（二）vllm引擎参数详细介绍

以下是vLLM参数的详细解释

核心性能参数:

block_size
- 作用：控制KV缓存块的大小（每个块存储的token数），影响内存碎片和利用率。
- 默认值：16（可选8/32/64等）。
- 调优建议：长文本场景增大（如32），小模型保持默认。
gpu_memory_utilization
- 作用：指定GPU显存分配比例（0-1），影响KV缓存大小和吞吐量。
- 默认值：0.9（A100/H100安全值，低端GPU建议0.8）。
- 性能影响：提高至0.9可增加20-30%吞吐量。
max_num_seqs
- 作用：单次迭代处理的最大并发序列数，影响调度效率。
- 默认值：256（推荐512-1024，受显存限制）。
- 注意：过高可能导致OOM。
max_model_len
- 作用：模型单次处理的****输入+输出****总 Token 容量。决定模型可接收的输入文本长度与生成空间的综合上限（如 max_model_length=8192 时，输入 4096 Token 则输出最多 4096 Token）
- 调优建议：高并发场景降低，长文本场景提高。
5.max_tokens

*控制范围*：模型单次生成的***输出内容****最大 Token 数量6,7 -
*作用机制*：仅限制生成文本长度，与输入无关（如设置 max_tokens=100 时，输出内容最多包含 100 Token） -

*典型应用*：

-限制回答篇幅（如要求生成100字摘要）

- 避免生成过长冗余内容（如设定 `max_tokens=500` 控制故事续写长度）

并行与分布式：

tensor_parallel_size
- 作用：张量并行GPU数量，用于单机多卡分布式推理（如70B模型需8卡）。
- 默认值：1（单卡）。
pipeline_parallel_size
- 作用：多机流水线并行阶段数，需与tensor_parallel_size配合。
- 默认值：1（仅限LLaMA/GPT2等特定模型）。

推理优化：

enable_prefix_caching
- 作用：启用前缀缓存，复用共享前缀的KV缓存（如系统提示），提升聊天场景性能10-20%。
- 默认值：v1版本默认启用。
enable_chunked_prefill
- 作用：将长输入分块处理，优化显存使用，长文本场景提升15-25%性能。
- 默认值：关闭（需显式启用）。
enforce_eager
- 作用：强制使用PyTorch即时执行模式（禁用CUDA图），调试时启用，生产环境关闭。
- 默认值：False（混合模式性能更优）。

内存扩展：

cpu_offload_gb
- 作用：每GPU卸载到CPU的内存大小（GiB），扩展虚拟显存。
- 默认值：0（不卸载）。
- 示例：--cpu_offload_gb=4。
swap_space
- 作用：每GPU的CPU交换空间（GiB），用于临时存储请求状态。
- 默认值：4（best_of>1时需设置）。

其他关键参数：

guided_decoding_backend
- 作用：指定结构化输出（如JSON/SQL）的解码引擎（如outlines或xgrammar）。
- 默认值：auto。
scheduling_policy
- 作用：请求调度策略，fcfs（先到先服务）或priority（优先级）。
- 默认值：fcfs。
disable_custom_all_reduce
- 作用：禁用自定义All-Reduce操作，解决NCCL超时问题。
- 使用场景：多卡部署报错时启用。

多模态相关：

limit_mm_per_prompt
- 作用：限制每个提示的多媒体（如图片）数量，如--limit_mm_per_prompt image5。
min_pixels/max_pixels
- 作用：控制输入图像分辨率范围（如min_pixels=256 * 28 * 28）。
- 默认值：模型相关（Qwen2-VL默认4-16384）。

量化与硬件：

model_quantization
- 作用：权重量化方法（如awq/gptq），减少显存占用。
- 选项：支持FP8/INT4等。
mm_processor_kwargs
- 作用：多媒体处理器的额外参数（如图像预处理配置）。

性能调优建议：

高吞吐场景：增大max_num_seqs和gpu_memory_utilization，启用enable_chunked_prefill。
长文本处理：增大block_size和max_model_len，启用CPU卸载。
低延迟场景：减小max_num_batched_tokens，使用优先级调度。

（三）模型参数

从下列图片中可以看到就算是qwen3同系列同参数规模下（235B）的模型也有不同的版本和命名方式，初次接触不免让人感到疑惑。下面让我来详细介绍一下大模型的命名背后的意义。

以Qwen3-235B-A22B-GPTQ-Int4为例：

Qwen3-235B-A22B-GPTQ-Int4 可拆解为五个核心部分：

[厂商前缀]-[参数量]-[激活参数]-[训练框架]-[量化精度]
  ↓        ↓        ↓           ↓          ↓
Qwen3     235B     A22B       GPTQ       Int4

重点了解训练框架和量化精度对模型的影响：

以下是关于大模型中训练框架与量化精度对模型性能影响的深度解析，结合Qwen系列模型和行业实践：

训练框架（如GPTQ/AWQ）的核心影响

1. GPTQ（GPT-aware Quantization）

技术特点：
- 后训练量化（Post-training Quantization）
- 按权重分组优化（Group-wise Quantization）
- 基于Hessian矩阵的误差补偿
优势：
✅ 量化后精度损失小（<1% perplexity上升）
✅ 支持大batch推理加速（vLLM兼容性好）
✅ 显存占用直降75%（Int4 vs FP16）
局限：
❌ 需要校准数据集（100-512样本）
❌ 仅量化权重，激活值仍用FP16

2. AWQ（Activation-aware Quantization）

技术特点：
- 激活值感知量化（识别敏感通道）
- 自适应缩放因子（Per-channel Scaling）
- 无需校准数据
优势：
✅ 更适合低显存设备（如RTX 4090）
✅ 动态范围保留更好（适合生成任务）
✅ 无需校准，即插即用
局限：
❌ 推理速度略慢于GPTQ（约10-15%）
❌ 量化工具链较新（社区支持弱于GPTQ）

3. FP8（NVIDIA原生量化）

技术特点：
- 8-bit浮点格式（E5M2/E4M3）
- TensorCore硬件加速
优势：
✅ 硬件加速（H100/A100专用）
✅ 精度无损（适合科学计算）
✅ 无需重训练
局限：
❌ 仅限NVIDIA Ampere+架构
❌ 显存节省有限（仅50%）

量化精度（如Int4/Int8）的影响维度

1. 显存占用对比

精度	权重存储量	235B模型显存需求	适用硬件
FP16	16-bit	235B×2B=470GB	多卡集群（如8xA100）
Int8	8-bit	235B×1B=235GB	2-4卡中端GPU
Int4	4-bit	235B×0.5B=117.5GB	单卡+CPU卸载

2. 推理速度对比（以A100为例）

精度	生成速度（tokens/sec）	延迟降低	适用场景
FP16	120（基准）	-	高精度需求
Int8	180-200	1.5x	实时对话系统
Int4	220-260	2x+	批量数据处理

3. 精度损失实测（MMLU基准）

模型	FP16准确率	Int4准确率	下降幅度
Qwen1.5-110B	82.3%	80.1%	2.2%
LLaMA-2-70B	68.9%	66.5%	2.4%
Mistral-8x7B	72.1%	70.8%	1.3%

关键选择策略

1. 硬件匹配原则

数据中心级GPU（A100/H100）：优先选FP8 > GPTQ-Int4
消费级GPU（RTX 4090）：AWQ-Int4 > GPTQ-Int4
边缘设备（Jetson）：AWQ-Int4 + 模型蒸馏

2. 任务敏感度分析

任务类型	推荐量化方案	原因
数学推理	FP16/FP8	数值精度敏感
长文本生成	GPTQ-Int4 + CPU卸载	显存压力大，需高效管理
多轮对话	AWQ-Int4	动态范围保留更优
代码生成	GPTQ-Int8	语法结构敏感，需平衡精度

选型决策树

根据场景选择技术组合：

是否需要训练新模型？
├── 是 → 使用PyTorch训练
└── 否 → 进入部署优化阶段
        ├── 目标设备是手机/边缘端？ → PyTorch静态量化
        ├── 需要极致推理速度？ → GPTQ-Int4 + Triton推理  
        └── 显存极度紧张？ → AWQ-Int4 + vLLM

（四）生成参数

采样参数主要作用于大语言模型的解码阶段（生成阶段），即在模型计算出下一个词元的概率分布后，通过调整概率分布形态或采样范围来控制生成结果的随机性与多样性。

温度参数（Temperature）

作用：控制生成文本的随机性和创造性。温度值越高，模型输出的概率分布越平滑，生成结果更随机、多样化；温度值越低，概率分布越尖锐，生成结果更保守、连贯

思考模式（enable_thinking=True）：建议设为 0.6，在保证逻辑性的前提下允许一定创造力，适合需要推理的复杂任务（如数学题）。
非思考模式（enable_thinking=False）：设为 0.7，略微增加随机性，适用于常规对话或需要多样性的场景（如创意写作）。

原理：温度值通过缩放模型输出的对数概率分布，改变词元选择的置信度。

核采样（TopP）

作用：动态选择累积概率超过阈值 p 的最小词元集合，平衡多样性与连贯性。例如，TopP=0.95 表示仅从概率最高的前95%词元中采样。

思考模式：设为 0.95，允许更广的候选范围，支持复杂推理。
非思考模式：设为 0.8，限制候选词数量，提高回答稳定性。

原理：TopP通过排除低概率词元减少无关输出的干扰，同时保留合理的多样性。例如，若候选词的概率分布为0.5、0.3、0.1，TopP=0.9时将选择前三个词元（累积概率0.9）。

候选词数量（TopK）

作用：固定选择概率最高的前 K 个词元作为候选池，限制生成范围。TopK=20 表示每次仅从最可能的20个词中随机选择。

适用场景：在两种模式下均设为 20，避免极端词元干扰，确保生成质量。

与TopP区别：TopK是静态截断，TopP是动态调整。两者可结合使用，例如TopK=20且TopP=0.95时，若前20个词元的累积概率已超过0.95，则实际候选池可能更小。

最小概率阈值（MinP）

作用：过滤掉概率低于动态阈值（pscaled=pbase×pmax）的词元，防止低质量输出。设为 0 时关闭该功能。

文档建议：两种模式均设为 0，可能因任务需求或模型版本调整。

原理：MinP根据当前最高概率词元动态调整阈值。例如，若最高概率为0.5且 pbase=0.1，则仅保留概率≥0.05的词元，避免极低概率词被选中。

存在惩罚（Presence Penalty）

作用：惩罚已生成词元的重复出现，鼓励多样性。取值范围 0-2，值越高，重复惩罚越强。

文档建议：根据框架支持情况设为 0-2，但需注意过高值可能导致语言混合或性能下降。

参数间的协同与权衡

参数组合	适用场景	效果特点
低T + 低top_p	技术文档生成、代码补全	高确定性，输出与训练数据高度一致
高T + 高top_p	创意写作、故事续写	多样性优先，可能包含非常规表达
中T + 动态k/p	多轮对话、问答系统	平衡质量与多样性，避免重复回答

存在惩罚（Presence Penalty）

作用：惩罚已生成词元的重复出现，鼓励多样性。取值范围 0-2，值越高，重复惩罚越强。

文档建议：根据框架支持情况设为 0-2，但需注意过高值可能导致语言混合或性能下降。

参数间的协同与权衡

参数组合	适用场景	效果特点
低T + 低top_p	技术文档生成、代码补全	高确定性，输出与训练数据高度一致
高T + 高top_p	创意写作、故事续写	多样性优先，可能包含非常规表达
中T + 动态k/p	多轮对话、问答系统	平衡质量与多样性，避免重复回答

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
第28章汇编语言--- 异常处理 hummhumm 汇编算法开发语言程序设计高级语言异常处理汇编语言
在汇编语言中，异常处理是一个重要的概念，它涉及到处理器如何响应和处理程序运行时发生的非正常情况。异常可以是硬件错误（例如除零错误、非法指令）或者软件触发的中断（例如系统调用）。当发生异常时，处理器会暂停当前正在执行的程序，并转移到一个预先定义好的位置来处理这个异常。为了详细阐述第28章关于汇编语言中的异常处理，我们可以考虑一个简化的例子，展示异常处理的基本结构。请注意，实际的代码将取决于具体的处理
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
【备孕故事】她一直想做个大差不离的人，没想到在这件事上拔了尖儿宜嘉阿姨
图片发自App杨婷说从小到大自己就是个中规中矩的人，不出格，不落单，一直随着大流。学业上从未出类拔萃，却也跟着大部队一起考上了一本；做事从不冒尖，搞个大差不离就行，因此，这么多年以来，差不多就行成了她对自己人生的要求。22岁大学毕业进了一家国企，外型不出挑但文静可人的她也遇上了两位追求者，简单的观察和交往后，她从中选了李广作为自己的婚恋对象。25岁那年，在父母亲朋的祝福声中杨婷和李广步入了婚姻。婚
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
黛玉葬花是一种什么心情爱的生命力
图片发自App小区里的花终于开了，带着孩子在小区散步的时候，无意间我注意到了玉兰，第一次我发现原来它是先开花后长叶子的，洁白如玉的花高耸入云，那种洁白，让人敬畏。因为有风，所以带孩子在楼遮挡的草坪上玩，发现紫叶李的花也开了，并且随着风的吹动，落了满地，孩子捡起一朵花，拿到我面前，细声细气的说“花”，我的大脑细胞瞬间激活，为什么不和孩子一起捡花呢！这可是一项好玩的游戏，于是我给孩子拿了一个大的挖土用
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
今天的彭格列依然被世界游戏吓得瑟瑟发抖呢云染舒倦
前言有一天，有一个白兰的大魔王想要毁灭世界，创世者非常不高兴，于是，创始者用吞噬一切，包容一切的大空（泽田纲吉）、捉摸不定的雾（六道骸）、孤高的浮云（云雀恭弥）、愤怒的忠岚（狱寺隼人）、晕染一切的雨（山本武）、守护之雷（蓝波）、热血之晴（晴川了平）创造了七位拯救世界的勇士（用属性制造勇士），让他们跟白兰对抗。。。［白兰的力量是游戏，于是要打败他，只要同样在世界布置的游戏中，赢过白兰就行了~］图片发
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！

一，大模型的工作流程

（一）输入处理阶段

（二）向量化与位置编码

（三）Transformer核心处理阶段

（四）推理与结果生成阶段

（五）后处理阶段

二，模型相关参数介绍

（一）vllm引擎参数对模型的性能影响

（二）vllm引擎参数详细介绍

核心性能参数:

并行与分布式：

推理优化：

内存扩展：

其他关键参数：

多模态相关：

量化与硬件：

性能调优建议：

（三）模型参数

训练框架（如GPTQ/AWQ）的核心影响

1. GPTQ（GPT-aware Quantization）

2. AWQ（Activation-aware Quantization）

3. FP8（NVIDIA原生量化）

量化精度（如Int4/Int8）的影响维度

1. 显存占用对比

2. 推理速度对比（以A100为例）

3. 精度损失实测（MMLU基准）

关键选择策略

1. 硬件匹配原则

2. 任务敏感度分析

选型决策树

（四）生成参数

温度参数（Temperature）

核采样（TopP）

候选词数量（TopK）

最小概率阈值（MinP）

存在惩罚（Presence Penalty）

参数间的协同与权衡

存在惩罚（Presence Penalty）

参数间的协同与权衡

你可能感兴趣的:(qwen3,vllm,transforms,大语言模型部署,深度学习,人工智能)