DeepSpeed 深度学习学习笔记：高效训练大型模型

主要参考官网文档，对于具体内容还需参考官方文档

1. 引言：为什么需要 DeepSpeed？

大型模型训练的挑战

随着深度学习模型规模的爆炸式增长（从 BERT 的几亿参数到 GPT-3 的千亿参数，再到现在的万亿参数模型），传统的单 GPU 训练方式变得力不从心，即使是多 GPU 训练也面临巨大挑战：

内存限制 (Memory Wall):
- 模型参数： 模型的参数量巨大，例如一个 1750 亿参数的 GPT-3 模型，即使使用 FP16 精度，也需要 350GB 的显存来存储参数。这远超单个 GPU 的显存容量（如 A100 80GB）。
- 优化器状态： Adam 等优化器需要存储梯度、动量等额外状态，通常是参数量的 10-12 倍。
- 梯度： 梯度与参数量相同。
- 激活值： 前向传播产生的激活值在反向传播时需要重新计算或存储，也占用大量显存。
计算效率 (Compute Efficiency):
- 即使能把模型放进显存，如何高效地利用多 GPU 进行并行计算也是一大难题。
通信开销 (Communication Overhead):
- 多 GPU 训练中，参数同步、梯度聚合等操作会产生大量通信，成为性能瓶颈。
工程复杂性 (Engineering Complexity):
- 实现高效的分布式训练，需要深入理解并行策略、通信原语等，对开发者要求高。

DeepSpeed 核心优势

DeepSpeed 应运而生，旨在解决上述挑战，使大型模型训练触手可及：

内存优化：
- 通过 ZeRO (Zero Redundancy Optimizer) 系列技术，极致地减少显存占用，使千亿甚至万亿参数模型在现有硬件上训练成为可能。
计算效率：
- 优化了计算图，减少了通信开销，并支持高效的混合精度训练。
易用性：
- 提供简单易用的 API 和配置文件，用户只需少量代码修改即可应用复杂的优化技术。
可扩展性：
- 支持从单 GPU 到数千个 GPU 的弹性扩展。

2. DeepSpeed 核心概念

理解 DeepSpeed，首先要掌握其背后的几个关键技术。

2.1 ZeRO (Zero Redundancy Optimizer)

ZeRO 是 DeepSpeed 最核心的内存优化技术，通过消除冗余内存来减少显存占用。它将模型状态（优化器状态、梯度、参数）在不同的 GPU 之间进行分片（partitioning）。

ZeRO-Offload (CPU/NVMe 卸载):
- 不属于 ZeRO-Stage 的一个阶段，而是一种补充策略。
- 将部分模型状态（主要是优化器状态和/或梯度）从 GPU 显存卸载到 CPU 内存甚至 NVMe 硬盘，以释放宝贵的 GPU 显存。
- 优点： 显存节省显著，对于中大型模型非常有效。
- 缺点： 卸载会引入 CPU 或 NVMe 的 I/O 延迟，可能导致训练速度变慢。
ZeRO-Stage 1 (Optimizer States Partitioning):
- 原理： 将优化器状态（如 Adam 的动量和方差）在所有 GPU 上均匀分片。每个 GPU 只存储其分片的部分。
- 显存节省： 节省大约 4 倍于 FP16 参数的显存（因为 Adam 优化器状态通常是 FP32，占用 8 倍参数显存，分片后变为 8/N 倍，其中 N 是 GPU 数量）。
- 通信开销： 在梯度更新前需要 AllGather 完整的优化器状态。
- 示意图：
  
  ZeRO-Stage 1
  
  GPU3
  
  GPU2
  
  GPU1
  
  GPU0
  
  Full Model Parameters
  
  Full Model Parameters
  
  Full Model Parameters
  
  Full Model Parameters
  
  Full Gradients
  
  Full Gradients
  
  Full Gradients
  
  Full Gradients
  
  Total Optimizer State
  
  Total Optimizer State
  
  Total Optimizer State
  
  Total Optimizer State
  
  OS_part0
  
  OS_part1
  
  OS_part2
  
  OS_part3
  
  P3
  
  G3
  
  OS3
  
  P2
  
  G2
  
  OS2
  
  P1
  
  G1
  
  OS1
  
  P0
  
  G0
  
  OS0
  
  Large Model
  
  Optimizer
  
  Parameters
  
  Gradients
  
  Optimizer States
  
  说明：P代表参数，G代表梯度，OS代表优化器状态。ZeRO-Stage 1 将 OS 在各 GPU 间分片。
ZeRO-Stage 2 (Optimizer States + Gradients Partitioning):
- 原理： 在 Stage 1 的基础上，进一步将梯度也在所有 GPU 上均匀分片。每个 GPU 只存储和处理其分片的部分梯度。
- 显存节省： 在 Stage 1 的基础上，再节省大约 3 倍于 FP16 参数的显存（梯度通常是 FP16，占用 2 倍参数显存，分片后变为 2/N 倍）。总共节省约 7 倍显存。
- 通信开销： 在反向传播过程中需要进行 AllReduce 来聚合完整的梯度，但在更新参数前，每个 GPU 只处理自己分片的那部分梯度。
- 示意图：
  
  ZeRO-Stage 2 Gradients & OS Partitioning
  
  GPU3
  
  GPU2
  
  GPU1
  
  GPU0
  
  Full Model Parameters
  
  Full Model Parameters
  
  Full Model Parameters
  
  Full Model Parameters
  
  Total Gradients
  
  Total Optimizer State
  
  G_part0
  
  G_part1
  
  G_part2
  
  G_part3
  
  OS_part3
  
  OS_part2
  
  OS_part1
  
  OS_part0
  
  P3
  
  G3_part
  
  OS3_part
  
  P2
  
  G2_part
  
  OS2_part
  
  P1
  
  G1_part
  
  OS1_part
  
  P0
  
  G0_part
  
  OS0_part
  
  Large Model
  
  G0_part+G1_part+G2_part+G3_part
  
  OS0_part+OS1_part+OS2_part+OS3_part
  
  Optimizer
  
  说明：ZeRO-Stage 2 将 G 和 OS 在各 GPU 间分片。
ZeRO-Stage 3 (Optimizer States + Gradients + Parameters Partitioning):
- 原理： 在 Stage 2 的基础上，进一步将模型参数也在所有 GPU 上均匀分片。每个 GPU 只存储其分片的部分参数。在需要完整参数进行前向/反向传播时，通过 AllGather 操作从其他 GPU 收集。
- 显存节省： 理论上可以节省高达 N 倍显存（N 为 GPU 数量），因为每个 GPU 只存储 1/N 的模型参数、梯度和优化器状态。
- 通信开销： 前向传播和反向传播都需要进行 AllGather 操作来获取完整的参数/梯度，通信量最大，但能支持最大模型。
- 示意图：
  
  ZeRO-Stage 3 Parameters, Gradients & OS Partitioning
  
  GPU3
  
  GPU2
  
  GPU1
  
  GPU0
  
  AllGather for Full Parameters
  
  AllReduce for Full Gradients
  
  Total Optimizer State
  
  P_part0
  
  P_part1
  
  P_part2
  
  P_part3
  
  G_part3
  
  G_part2
  
  G_part1
  
  G_part0
  
  OS_part3
  
  OS_part2
  
  OS_part1
  
  OS_part0
  
  P3_part
  
  G3_part
  
  OS3_part
  
  P2_part
  
  G2_part
  
  OS2_part
  
  P1_part
  
  G1_part
  
  OS1_part
  
  P0_part
  
  G0_part
  
  OS0_part
  
  P0_part+P1_part+P2_part+P3_part
  
  (Large Model)
  
  G0_part+G1_part+G2_part+G3_part
  
  OS0_part+OS1_part+OS2_part+OS3_part
  
  (Optimizer)
  
  说明：ZeRO-Stage 3 将 P, G, OS 全部在各 GPU 间分片。
ZeRO-Infinity:
- 原理： 在 ZeRO-Stage 3 的基础上，结合了 NVMe 卸载、动态卸载、异构内存管理等技术。
- 目标： 实现几乎无限的内存拓展，将模型训练扩展到集群上最大的模型，甚至超过单节点 NVMe 容量。
- 显存节省： 能够训练 TB 级别的模型参数，超越单个节点的所有显存和内存限制。

2.2 混合精度训练 (Mixed Precision Training)

原理：

在训练过程中同时使用 FP32（单精度浮点数）和 FP16（半精度浮点数）。
- FP16 优势： 显存占用减半，部分 GPU 硬件（如 NVIDIA Tensor Cores）对 FP16 有原生加速，提高计算速度。
- FP32 优势： 精度更高，避免小梯度下溢。
DeepSpeed 实现： 自动管理 FP16 和 FP32 的转换、梯度缩放 (GradScaler) 以防止梯度下溢，以及参数副本的维护。

2.3 模型并行 (Model Parallelism)

当模型过大，即使 ZeRO-Stage 3 也无法完全容纳在一个 GPU 上时，就需要模型并行。模型并行将模型的不同部分放在不同的 GPU 上。

张量并行 (Tensor Parallelism):
- 原理： 将单个层的张量（如权重矩阵）沿某个维度拆分到不同 GPU 上，每个 GPU 只负责计算一部分。
- 优点： 减少单层计算的显存和计算压力。
- 缺点： 引入大量 GPU 间通信，实现复杂。
- DeepSpeed 配合： DeepSpeed 自身不直接实现张量并行，但可以与 Megatron-LM 等提供张量并行的框架结合使用。

2.4 管道并行 (Pipeline Parallelism)

原理： 将模型的不同层或层组划分到不同的 GPU 上，形成一个“流水线”。每个 GPU 负责模型的一个阶段。数据批次被进一步拆分成更小的“微批次”，在流水线中流动。
优点：
- 减少了每个 GPU 上的显存占用，因为每个 GPU 只存储模型的一部分。
- 通过流水线效应，可以提高多 GPU 利用率。
缺点：
- 引入“气泡”（bubble）效应，即流水线中的空闲时间，可能降低 GPU 效率。
- 实现复杂，需要精心划分模型。
DeepSpeed 实现： DeepSpeed 提供了对管道并行的原生支持。

2.5 优化器 (Optimizers)

DeepSpeed 提供了自己的优化器实现，这些优化器通常是高度优化的，并且能够与 ZeRO 技术无缝集成。例如，它有 DeepSpeedCPUAdam (将 Adam 的计算卸载到 CPU) 和 FusedAdam (GPU 上更快的 Adam 实现)。

3. 安装与环境配置

3.1 Python 环境准备

使用 Conda 或 Virtualenv 创建隔离的 Python 环境。

conda create -n deepspeed_env python=3.10
conda activate deepspeed_env

3.2 GPU 驱动与 CUDA/cuDNN

查询 PyTorch 官方网站以获取兼容性信息

3.3 DeepSpeed 安装

# 确保安装了正确版本的 PyTorch (例如，CUDA 12.1)
# 详情参考 PyTorch 官网，这里以 CUDA 12.1 为例
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 安装 DeepSpeed
pip install deepspeed
# 如果需要从源码安装以获取最新功能或进行开发：
# git clone https://github.com/microsoft/DeepSpeed.git
# cd DeepSpeed
# pip install . --global-config-path

验证安装：

python -c "import deepspeed; print(deepspeed.__version__)"

4. DeepSpeed 基本使用

DeepSpeed 的核心是其配置文件 (Configuration File)。将大部分优化选项写入一个 JSON 文件中，然后在训练脚本中通过 deepspeed.init_distributed() 和 deepspeed.initialize() 来加载和应用。

4.1 配置文件 (Configuration File) 详解

创建一个名为 ds_config.json 的 DeepSpeed 配置文件：

// ds_config.json
{
  "train_batch_size": 16,            // 训练批次大小 (全局批次大小 = train_batch_size)
  "train_micro_batch_size_per_gpu": 2, // 每个 GPU 上的微批次大小 (Gradient Accumulation Steps = train_batch_size / (num_gpus * train_micro_batch_size_per_gpu))
  "gradient_accumulation_steps": 8, // 梯度累积步数 (如果未设置，DeepSpeed 会根据前两个自动计算)

  "optimizer": {                     // 优化器配置
    "type": "AdamW",                 // 优化器类型，例如 AdamW
    "params": {
      "lr": 1e-5,                    // 学习率
      "betas": [0.9, 0.999],         // AdamW 参数
      "eps": 1e-8,
      "weight_decay": 0.01           // 权重衰减
    }
  },

  "scheduler": {                     // 学习率调度器配置
    "type": "WarmupLR",              // 调度器类型，例如 WarmupLR
    "params": {
      "warmup_min_lr": 0,
      "warmup_max_lr": 1e-5,
      "warmup_num_steps": 1000
    }
  },

  "fp16": {                          // 混合精度训练配置
    "enabled": true,                 // 启用混合精度
    "loss_scale": 0,                 // 0表示DeepSpeed自动管理，否则为固定值
    "initial_scale_power": 12,       // 初始梯度缩放因子 (2^12 = 4096)
    "loss_scale_window": 1000,
    "hysteresis": 2,
    "min_loss_scale": 1
  },

  "zero_optimization": {             // ZeRO 优化器配置
    "stage": 2,                      // ZeRO 阶段 (0, 1, 2, 3)
    "offload_optimizer": {           // 优化器状态卸载到 CPU
      "device": "cpu",               // 卸载到 CPU
      "pin_memory": true             // 锁定 CPU 内存，提高传输速度
    },
    "offload_param": {               // 参数卸载到 CPU (仅 Stage 3 配合使用)
      "device": "cpu",
      "pin_memory": true
    },
    "overlap_comm": true,            // 开启通信与计算重叠
    "contiguous_gradients": true,    // 尝试使梯度内存连续
    "sub_group_size": 1e9,           // 较大的值表示禁用子组优化
    "stage3_prefetch_bucket_size": 0, // stage3预取大小，0为禁用
    "stage3_param_persistence_threshold": 1e5, // 仅对Stage3，参数持久化阈值
    "stage3_max_live_parameters": 1e9, // Stage3 最大驻留参数
    "stage3_max_act_size": 1e9       // Stage3 最大激活值大小
  },

  "gradient_clipping": 1.0,          // 梯度裁剪，防止梯度爆炸
  "prescale_gradients": false,       // 启用 prescale_gradients 可能会提高 Stage3 的性能
  "wall_clock_breakdown": false,     // 是否详细记录训练时间分解
  "sparse_attention": false,         // 稀疏注意力 (针对稀疏模型)

  "flops_profiler": {                // FLOPS 分析器
    "enabled": false,
    "profile_step": 1,
    "module_depth": -1,
    "top_modules": 1,
    "detailed": true,
    "output_file": null
  },

  "activation_checkpointing": {       // 激活值检查点 (类似于梯度检查点，节省显存)
    "enabled": false,
    "cpu_checkpointing": false,      // 激活值检查点是否卸载到 CPU
    "partition_activations": false   // 激活值是否分片 (只适用于 ZeRO Stage 3)
  },

  "pipeline": {                      // 管道并行配置 (如果启用)
    "seed_layers": false,
    "micro_batch_size": 0
  },

  "steps_per_print": 10,             // 每隔多少步打印一次日志
  "seed": 1234,                      // 随机种子

  "tensorboard": {                   // TensorBoard 日志
    "enabled": true,
    "output_path": "tensorboard_logs/",
    "job_name": "my_deepspeed_experiment"
  }
}

train_batch_size vs train_micro_batch_size_per_gpu vs gradient_accumulation_steps:
- train_batch_size 是全局等效的训练批次大小，它定义了模型在一个优化步骤中处理的数据量。
- train_micro_batch_size_per_gpu 是每个 GPU 上的微批次大小。
- gradient_accumulation_steps 是梯度累积的步数。
- 它们之间的关系是：train_batch_size = num_gpus * train_micro_batch_size_per_gpu * gradient_accumulation_steps。如果你设置了前两个，DeepSpeed 会自动计算 gradient_accumulation_steps。这是控制实际更新模型参数频率的关键。

4.2 启动 DeepSpeed 训练

使用 deepspeed 命令行工具来启动训练脚本：

deepspeed --num_gpus=4 your_training_script.py --deepspeed_config ds_config.json

--num_gpus: 指定使用的 GPU 数量。
your_training_script.py: 你的 PyTorch 训练脚本。
--deepspeed_config: 指定 DeepSpeed 配置文件的路径。

4.3 简单的 PyTorch 训练脚本改造

只需要少量修改即可将 PyTorch 脚本转换为 DeepSpeed 脚本。

# your_training_script.py

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
import deepspeed
import argparse

# 1. 定义模型
class SimpleModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear1 = nn.Linear(10, 20)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(20, 1)

    def forward(self, x):
        return self.linear2(self.relu(self.linear1(x)))

def get_args():
    parser = argparse.ArgumentParser(description="DeepSpeed Training Example")
    parser.add_argument('--deepspeed_config', default='ds_config.json', type=str,
                        help='DeepSpeed config file path')
    parser.add_argument('--local_rank', type=int, default=-1, help='local rank passed from DeepSpeed')
    args = parser.parse_args()
    return args

def main():
    args = get_args()

    # 2. DeepSpeed 初始化
    # model, optimizer, _, lr_scheduler = deepspeed.initialize(
    #     model=model,
    #     model_parameters=model.parameters(),
    #     config_params=ds_config_dict # 可以直接传递字典
    # )
    # 或者从配置文件加载
    model = SimpleModel()
    model_engine, optimizer, _, lr_scheduler = deepspeed.initialize(
        args=args,
        model=model,
        model_parameters=model.parameters()
    )

    # 3. 准备数据 (示例数据)
    # 确保数据在正确的设备上 (DeepSpeed 会自动处理数据到对应GPU)
    # 对于DeepSpeed，通常数据加载无需手动.to(device)
    dummy_data = torch.randn(100, 10).cuda()
    dummy_labels = torch.randn(100, 1).cuda()
    dataset = TensorDataset(dummy_data, dummy_labels)
    # DeepSpeed 会处理分布式采样器
    train_dataloader = DataLoader(dataset, batch_size=model_engine.train_micro_batch_size_per_gpu)

    # 4. 定义损失函数
    criterion = nn.MSELoss()

    # 5. 训练循环
    print(f"Rank {model_engine.local_rank}: Starting training...")
    for epoch in range(10):
        for i, (inputs, labels) in enumerate(train_dataloader):
            # inputs, labels = inputs.cuda(), labels.cuda() # DeepSpeed会自动移动数据

            outputs = model_engine(inputs)
            loss = criterion(outputs, labels)

            # 反向传播和优化
            model_engine.backward(loss)
            model_engine.step()

            # 打印日志 (可选，DeepSpeed 会有自己的打印逻辑)
            if (i + 1) % model_engine.steps_per_print() == 0:
                print(f"Rank {model_engine.local_rank}, Epoch [{epoch+1}/10], Step [{i+1}/{len(train_dataloader)}], Loss: {loss.item():.4f}")

        if model_engine.local_rank == 0: # 只有主进程保存
            print(f"Epoch {epoch+1} finished.")
            # 保存检查点
            # model_engine.save_checkpoint(f"checkpoints/epoch_{epoch+1}")

    # 保存最终模型 (所有进程都会保存自己的分片)
    if model_engine.local_rank == 0:
        model_engine.save_checkpoint(save_dir="final_model_checkpoint", client_state={"epoch": epoch})
        print("Training finished and model saved.")

if __name__ == "__main__":
    # DeepSpeed 使用 torch.distributed.launch 类似的机制
    # 需要在命令行通过 deepspeed 命令启动，而不是直接 python your_script.py
    main()

训练多个模型

model_engines = [engine for engine, _, _, _ in [deepspeed.initialize(m, ...,) for m in models]]
for batch in data_loader:
    losses = [engine(batch[0], batch[1]) for engine in model_engines]
    loss = sum(l / (i + 1) for i, l in enumerate(losses))
    loss.backward()

    for engine in model_engines:
        engine._backward_epilogue()

    for engine in model_engines:
        engine.step()

    for engine in model_engines:
        engine.optimizer.zero_grad()

除了使用多个 DeepSpeedEngine 之外，上述用法与典型用法在两个关键方面有所不同：

反向传播调用是使用共同损失值而非各自模型引擎进行的。
在 loss.backward() 之后，会在模型引擎上调用 _backward_epilogue。

4.4 推理

deepspeed.init_inference() 返回一个推理引擎，其类型为 InferenceEngine

deepspeed.init_inference()传入config参数，对于config 支持以下几种

class deepspeed.inference.config.InferenceCheckpointConfig

deepspeed.inference.config.DeepSpeedInferenceConfig

deepspeed.inference.config.DeepSpeedTPConfig

deepspeed.inference.config.DeepSpeedMoEConfig

deepspeed.inference.config.QuantizationConfig

对每个config具体参数参考

for step, batch in enumerate(data_loader):
    #forward() method
    loss = engine(batch)

5. 深入理解 ZeRO 优化器

5.1 ZeRO-Offload：CPU 和 NVMe 卸载

配置： 在 ds_config.json 中配置 zero_optimization.offload_optimizer 和 zero_optimization.offload_param。
适用场景：
- 优化器卸载到 CPU： 适用于显存稍有不足，但 CPU 内存充足且 I/O 速度较快的场景。
- 参数卸载到 CPU/NVMe： 主要用于 ZeRO-Stage 3，当即使参数分片后 GPU 显存仍然不够时。NVMe 卸载（需要 nvme_path 配置）比 CPU 卸载能支持更大的模型，但速度更慢。
权衡： 显存节省与训练速度之间的权衡。

5.2 ZeRO-Stage 1, 2, 3：优化器状态、梯度、参数分片

配置： 关键在于 zero_optimization.stage 参数。
选择原则：
- Stage 1 (最小开销，适度显存节省)： 适用于优化器状态是主要显存瓶颈的场景。
- Stage 2 (中等开销，显著显存节省)： 适用于梯度和优化器状态共同造成瓶颈的场景，是常用且平衡的选项。
- Stage 3 (最大开销，极致显存节省)： 用于训练现有硬件能容纳的最大模型，通信开销最高。需要 activation_checkpointing 等技术配合以进一步节省显存。
通信优化： overlap_comm (通信与计算重叠) 和 contiguous_gradients (梯度内存连续性) 对性能至关重要，建议在 Stage 2/3 中启用。

5.3 ZeRO-Infinity：无限内存拓展

配置： 通常是在 Stage 3 的基础上，通过更激进的卸载策略和动态管理实现。
目标： 挑战单节点和甚至多节点集群的显存极限。
使用： 相比标准 ZeRO Stage 3 更复杂，需要根据具体硬件和模型进行调整。通常在需要训练万亿参数模型时考虑。

6. 混合精度训练 (AMP)

6.1 原理：FP16 与 FP32

FP16 (Half-precision)：占用 2 字节，范围小，精度低，但部分硬件支持加速。
FP32 (Single-precision)：占用 4 字节，范围大，精度高。
混合精度策略：大部分计算使用 FP16，但保持参数的 FP32 副本以确保精度；梯度在累积时转换为 FP32；损失计算使用 FP32。

6.2 DeepSpeed 中的 AMP 配置

在 ds_config.json 中设置 fp16.enabled: true。DeepSpeed 会自动管理：

模型参数的类型转换（FP16 用于计算，FP32 用于参数更新）。
梯度缩放 (GradScaler)。

6.3 GradScaler (梯度缩放)

目的： 防止 FP16 精度下浮点数表示范围不足导致的小梯度下溢为 0。
原理： 在反向传播前，将损失函数乘以一个大的缩放因子，使梯度也相应地变大，避免下溢。梯度计算完成后，再除以相同的缩放因子恢复正常值，用于参数更新。
DeepSpeed 自动管理： 用户无需手动实现 GradScaler，DeepSpeed 会根据配置文件中的 loss_scale、initial_scale_power 等参数自动处理。

7. 模型并行与管道并行

DeepSpeed 主要关注数据并行和内存优化（通过 ZeRO）。虽然它本身不直接提供像 Megatron-LM 那样的复杂张量并行模块，但可以通过与这些库的集成来支持模型并行。DeepSpeed 提供了原生管道并行。

7.1 张量并行 (Tensor Parallelism) 概述

将一个层的权重和输入张量在 GPU 之间拆分。例如，一个大的矩阵乘法被拆分成多个小的矩阵乘法在不同 GPU 上并行计算。
显存： 每个 GPU 只存储部分权重，节省显存。
通信： 每个操作后都需要进行 AllReduce 或 AllGather 等通信。

7.2 管道并行 (Pipeline Parallelism) 概述

将模型垂直切分，不同层在不同 GPU 上。
DeepSpeed 中的配置： 在 ds_config.json 中配置 pipeline.stages（如果使用）。

代码示例（概念性）：

# DeepSpeed 管道并行示例（概念性，实际实现更复杂）
# 通常需要定义好各个子模块，并指定哪些模块属于哪个pipeline stage
# DeepSpeed会帮你处理forward/backward pass在不同GPU上的调度
import deepspeed
from deepspeed.pipe import PipelineModule, LayerSpec

class MyPipelineModel(PipelineModule):
    def __init__(self, **kwargs):
        # 定义模型层，这里用LayerSpec来表示每个阶段包含哪些层
        # 实际模型会更复杂，例如 Transformer Blocks
        super().__init__(layers=[
            LayerSpec(nn.Linear, 10, 20),
            LayerSpec(nn.ReLU),
            LayerSpec(nn.Linear, 20, 30),
            LayerSpec(nn.ReLU),
            LayerSpec(nn.Linear, 30, 1)
        ], **kwargs)

# 实际使用时，需要在配置文件中开启 pipeline 模式，并设置 micro_batch_size
# "pipeline": {
#   "stages": N_STAGES, // N_STAGES 个阶段，对应 N_STAGES 个 GPU
#   "micro_batch_size": YOUR_MICRO_BATCH_SIZE
# }
# 然后在 initialize 时传入 PipeLineModule 实例
# model_engine, optimizer, _, _ = deepspeed.initialize(
#     args=args,
#     model=MyPipelineModel(loss_fn=nn.MSELoss()), # 需要指定损失函数
#     model_parameters=[p for p in model.parameters() if p.requires_grad]
# )

8. 优化器与调度器

8.1 DeepSpeed 支持的优化器

DeepSpeed 封装了许多标准优化器，并提供了一些定制优化器，例如：

AdamW (默认推荐): 通常在 DeepSpeed 中使用 FusedAdam 或 OneBitAdam（如果启用）。
Adam: 标准 Adam。
DeepSpeedCPUAdam: 将 Adam 的计算卸载到 CPU，进一步节省 GPU 显存。当 zero_optimization.offload_optimizer.device 设置为 “cpu” 时，DeepSpeed 会自动选择使用它。
OneBitAdam/OneBitSGD: 高效通信的优化器，用于减少梯度通信量（但可能牺牲一些精度）。

8.2 学习率调度器

DeepSpeed 支持多种学习率调度器（如 WarmupLR, ReduceLROnPlateau 等），可以在配置文件中直接配置。

9. Checkpointing (检查点)

训练大型模型通常需要很长时间，因此保存和加载检查点以防止训练中断以及进行实验是非常重要的。

DeepSpeed 的检查点： DeepSpeed 能够以分布式方式保存和加载模型参数、优化器状态和学习率调度器状态。对于 ZeRO-Stage 3，它会智能地处理分片后的参数。
保存：
```
model_engine.save_checkpoint(save_dir, client_state=None)
```
- save_dir: 保存检查点的目录。
- client_state: 可以保存任何自定义状态信息（如当前 epoch 数）。
加载：
```
load_path, client_state = model_engine.load_checkpoint(load_dir, tag=None, load_module_only=False)
```
- load_dir: 检查点所在的目录。
- tag: 如果有多个检查点，可以指定标签。
- load_module_only: 如果只加载模型参数而不加载优化器和调度器状态，设为 True。

10. 故障排查与最佳实践

10.1 常见错误及解决方案

CUDA OOM (Out of Memory):
- 原因： 显存不足。
- 解决方案：
  - 降低 train_micro_batch_size_per_gpu。
  - 增加 gradient_accumulation_steps。
  - 将 zero_optimization.stage 提高到 2 或 3。
  - 启用 zero_optimization.offload_optimizer 和/或 offload_param 到 CPU/NVMe。
  - 启用 activation_checkpointing。
通信死锁/hang:
- 原因： 分布式训练中进程间通信问题。
- 解决方案：
  - 确保所有进程都正确启动并连接。
  - 检查防火墙设置。
  - 确认 torch.distributed.init_process_group 等初始化正确。
  - 有时是由于某个 GPU 上 OOM 导致进程崩溃，其他进程等待。
性能下降：
- 原因： CPU/NVMe 卸载开销过大，通信成为瓶颈，微批次过小。
- 解决方案：
  - 优化 zero_optimization.offload_optimizer 配置，权衡卸载量。
  - 调整 overlap_comm 和 contiguous_gradients。
  - 适当增加 train_micro_batch_size_per_gpu。
  - 考虑使用更快的互联（如 InfiniBand）。
  - 使用 DeepSpeed 的 wall_clock_breakdown 和 flops_profiler 进行性能分析。

10.2 性能调优技巧

从小到大： 先尝试 ZeRO-Stage 1/2，如果显存仍然不足再考虑 Stage 3。
梯度累积： 充分利用 gradient_accumulation_steps 来增加等效批次大小，同时保持较小的微批次大小以节省显存。
通信与计算重叠： 开启 overlap_comm: true 可以有效隐藏通信延迟。
激活值检查点： 对于深度模型，启用 activation_checkpointing 是一个非常有效的显存优化手段，它会重新计算激活值而不是存储它们。
FloPS Profiler： 使用 flops_profiler 来分析模型的计算瓶颈。
数据加载： 确保数据加载器不会成为瓶颈，使用 num_workers 适当并行加载。

10.3 日志与监控

DeepSpeed 提供了丰富的日志输出。结合 TensorBoard 可以可视化训练过程中的各种指标（损失、学习率、内存使用等）。

11. 实际应用案例与高级特性

11.1 结合 Hugging Face Transformers

DeepSpeed 与 Hugging Face 的 transformers 库高度集成。Hugging Face 提供了可以直接使用 DeepSpeed 的 Trainer 类。

使用方式：

# 使用 transformers 命令行工具
transformers-cli run --model_name_or_path <model_path> \
--deepspeed <deepspeed_config_file> \
--num_gpus <num_gpus> \
--do_train \
# ... 其他训练参数

或者在 Python 脚本中：

from transformers import Trainer, TrainingArguments, AutoModelForSequenceClassification, AutoTokenizer
# ... 定义模型、tokenizer、数据集

training_args = TrainingArguments(
    output_dir="./output",
    deepspeed="ds_config.json", # 指定 DeepSpeed 配置文件
    # ... 其他参数
)

trainer = Trainer(
    model=model,
    args=training_args,
    # ... 其他 Trainer 参数
)

trainer.train()

你可能感兴趣的:(DeepSpeed 深度学习学习笔记：高效训练大型模型)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
关于流媒体播放器EasyPlayer和EasyPlayerPro的介绍以及其区别 EasyDarwin EasyDarwin 音视频 ffmpeg 人工智能大数据 ar
EasyPlayer是一款流媒体播放器系列项目，它支持多种流媒体协议的播放，包括但不限于RTSP、RTMP、HTTP、HLS、UDP、RTP、File等。除此之外，EasyPlayer还支持本地文件播放和多种功能特性，包括本地抓拍、本地录像、播放旋转、多屏播放、倍数播放等。EasyPlayer核心基于ffmpeg，稳定、高效、可靠、可控。随着多年的不断发展和迭代，EasyPlayer基于成功的实践
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
D124:如何训练独立思考力？大栗子_
当我们要判断一个理论或者思想是否正确，需要有三个层次，分别是体验、解释和分析。首先看体验。很多时候，我们会相信“听上去、感觉是对的”的事情。我们之前讲的太空笔的故事之所以大多数人都认为是对的，就是有一些看似真实的关键词，比如美国，NASA，设计等，这些词看起来非常权威，但是离我们又遥远，这时候我们的大脑就会放松警惕了。于是，我们毫不犹豫就接受了。说到这里，你有没有发现之前的电视广告中的各种高让我们
社交电商平台有哪些？社交电商怎么做？氧惠评测
社交电商平台有很多，以下是一些常见的社交电商平台：氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。珊珊导师氧惠邀请码888999，注册送万元推广大礼包，教你如何1年做到百万团队。氧惠app：氧惠ap
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
办公党必备！Excel文件批量加密神器！一键保护你的重要数据阿幸软件杂货间 Excel excel
软件介绍今天推荐的这一款专为Excel文件设计的批量加密工具，能够帮助用户快速、高效地为多个Excel文件设置密码保护，有效防止数据泄露。软件特点本地化离线处理支持批量操作完全免费软件操作选择你需要加密的文件和路径，设置密码进行加密即可软件下载夸克网盘迅雷网盘UC网盘
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
链商拉不到人能赚钱么，谈谈我的看法糖葫芦不甜
链商作为一种新兴的商业形态，往往依赖于用户网络的扩展和交易量的增加来实现价值增长，但这并不意味着没有直接拉新就无法盈利。以下是我对这一问题的几点看法：招合作伙伴↓微信在文章底部。首先，链商能否赚钱，关键在于其是否能提供独特且有价值的产品或服务。如果链商平台能够构建出高效、透明、安全的价值交换体系，解决行业痛点，提升用户体验，那么即使没有大规模的拉新活动，也能通过现有用户的口碑传播和持续使用来产生稳
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu