the_3rd_bomb

MNIST DDP 分布式数据并行

Distributed Data Parallel

转自我的个人博客：https://shar-pen.github.io/2025/05/04/torch-distributed-series/3.MNIST_DDP/

The difference between DistributedDataParallel and DataParallel is: DistributedDataParallel uses multiprocessing where a process is created for each GPU, while DataParallel uses multithreading.
By using multiprocessing, each GPU has its dedicated process, this avoids the performance overhead caused by GIL of Python interpreter.

DDP vs DP 的并发模式

DDP使用的是多进程multiprocessing
- 每个 GPU 对应一个独立的 Python 进程。
- 各 GPU/进程之间通过通信（比如 NCCL）同步梯度。
- 进程之间可以并行,每个进程独占一个 GPU，自由度高、效率高。
DP 使用的是多线程（multithreading）
- 一个 Python 主进程控制多个线程，每个线程对应一个 GPU 上的模型副本。
- 所有线程共享同一个 Python 解释器（主进程中的 GIL 环境）。
- 在多线程环境下，同一时刻只能有一个线程执行 Python 字节码

GIL 的性能问题

Python 有个限制叫 GIL（Global Interpreter Lock）：

在 Python 中，进程之间可以并行，线程之间只能并发。
在多线程环境下，同一时刻只能有一个线程执行 Python 字节码。
这意味着虽然多个线程运行在不同 GPU 上，但只要你涉及到 Python 层的逻辑（如 forward 调度、数据调度），就会被 GIL 限制，造成瓶颈。

DDP 的多进程模式就天然绕开了 GIL，每个进程有独立的 Python 解释器和 GIL，不会互相争抢锁。所以执行速度更快、效率更高、更适合大模型和多 GPU 并行。

To use DistributedDataParallel on a host with N GPUs, you should spawn up N processes, ensuring that each process exclusively works on a single GPU from 0 to N-1.

总结下，DDP 用多进程给每个 GPU 配一个独立的进程，这样就不用多个线程去抢 Python 的 GIL，避免了 DataParallel 由于多线程带来的性能开销。

分布式数据并行时，模型（model parameters）/优化器（optimizer states）每张卡都会拷贝一份（replicas），在整个训练过程中 DDP 始终在卡间维持着模型参数和优化器状态的同步一致性；

DDP 将 batch input，通过 DistributedSampler split & 分发到不同的 gpus 上，此时虽然模型/optimizer 相同，但因为数据输入不同，导致 loss 不同，反向传播时计算到的梯度也会不同，如何保证卡间，model/optimizer 的同步一致性，之前 DP 用的 parameter server，而它的问题就在于通信压力都在 server，所以 DDP 对这方面的改进是 ring all-reduce algorithm，将 Server 上的通讯压力均衡转到各个 Worker 上

注意有两个核心概念:

All to one：reduce
one to All：broadcast

方法名	通信结构	通信路径	数据流向	聚合策略	通信瓶颈位置	通信效率	适合场景
Parameter Server	中心化（星型）	所有 Worker ⇄ PS	上传全部梯度 → 聚合 → 下发参数	PS 聚合	PS 带宽和计算压力	❌ 低（集中式瓶颈）	小规模训练，原型实验
Tree All-Reduce	层次化（树型）	节点间按树结构上传/下传	层层上传聚合 → 再层层广播	层次加和 & 广播	上层节点（树根）	✅ 中（ $\log N$ 轮次）	多机多卡，合理拓扑连接
Broadcast + Reduce	两阶段（集中）	所有 → 主节点（reduce） → 所有	所有上传 → 中心聚合 → 广播下发	单节点聚合	主节点	❌ 低	小规模单机多卡
Ring All-Reduce	环形（对称）	相邻节点之间点对点传输	均匀传递/聚合，每轮处理一块数据	分块加和 & 拼接	无集中瓶颈	✅✅ 高（带宽最优）	大规模 GPU 并行，主流方案

Parameter Server（PS）和 Broadcast + Reduce 在通信机制上本质相似，区别只在于:

PS 是显式设计了专门的“参数服务器”角色；
Broadcast + Reduce 是“隐式指定”某个节点承担聚合与广播任务。

ring all-reduce:

Reduce-scatter:首先将 gradient 分为 n 块，在第 i 轮 (0<= i < n-1)，每个 gpu j 把第 (i+j) % n 块的数据传给下一个 gpu (j+1 % n)，即每个 gpu 都把自己一个块给下一个做加法，在 n 轮结束后，每个 gpu 上都有一个块是完整的聚合了所有不同 gpu 的 gradient。
All-gather: 将每个 gpu 上的完整聚合后的 gradient 依次传给下一个 gpu，再传递 n-1 次就使所有 gpu 的每块 gradient 都是完整聚合的数据。

虽然传递的数据量还是和 PS 一样，但传输压力平均到每个 gpu 上，不需要单个 worker 承担明显大的压力。

概念/参数名	中文含义	含义解释	示例（2节点 × 每节点4GPU）
`world`	全局进程空间	指整个分布式系统中参与训练的所有进程总和	2 节点 × 4 GPU = 8 个进程
`world_size`	全局进程数	`world` 中的进程总数，参与通信、同步、梯度聚合的总 worker 数	8
`rank`	全局进程编号	当前进程在 `world` 中的唯一编号，范围是 $world_size − 1 ] [0, \text{world\_size} - 1]$	第1节点是 0~3，第2节点是 4~7
`node`	物理节点/机器	实际的服务器或物理机，每个节点运行多个进程，通常对应一台机器	2台服务器（假设每台4 GPU）
`node_rank`	节点编号	当前节点在所有节点中的编号，通常用于标识不同机器	第1台是 0，第2台是 1
`local_rank`	本地GPU编号	当前进程在所在节点上的 GPU 编号，绑定 `cuda(local_rank)`	每台机器上分别为 0~3

简洁点，world 代表所有服务器上的 gpu，rank 代表 world 视角下的 gpu 编号；node 代表某个具体的服务器，node_rank 代表 world 视角下的 node 编号，local_rank 代表 node 视角下的 gpu 编号。

引入 DDP 相关库

import os
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

# 以下是分布式相关的
import torch.multiprocessing as mp
from torch.utils.data.distributed import DistributedSampler # 分发数据集
from torch.nn.parallel import DistributedDataParallel as DDP # 用 DDP 封装 module 以支持分布式训练
from torch.distributed import init_process_group, destroy_process_group # 初始化和销毁进程组，一个 process 代表一个 gpu 进程

ddp 对原始代码的修改

参数	作用说明
`MASTER_ADDR`	指定主节点（rank=0 所在节点）的 IP 地址或主机名，作为所有进程连接的“服务器”
`MASTER_PORT`	指定主节点上用于通信监听的端口号，所有进程都通过这个端口进行连接与协调

为什么只需要指定主节点的地址和端口？所有进程必须“集合”在一起组成一个通信组（process group）；这个过程需要一个协调者，就像组织会议需要一个人发出会议链接一样；PyTorch DDP 把这个协调角色交给 rank == 0 的进程（主节点）；其它进程只需要“知道去哪找这个协调者”就能完成初始化。

主节点负责协调组网，在 DDP 初始化时，所有节点主动连接主节点，每个节点都会告知主节点自己的地址和端口，主节点收集所有其他进程的网络信息，构建全局通信拓扑，将通信配置信息广播回每个进程，包括每个 rank 要连接哪些 peer，这样每个进程就可以进行后续的双向传输，而不再依赖主节点作为中转。

主节点（rank 0）	工作节点（rank 1,2,…）
在 `MASTER_PORT` 启动一个监听服务（如 TCP server）	主动连接 `MASTER_ADDR:MASTER_PORT`
监听并接受连接，记录加入者信息	与主节点握手，注册自己的 `rank`、地址等
构建通信拓扑，如 Ring 或 NCCL 分组等	一旦接入，就获得组网配置，与其他 worker 点对点通信

ddp 初始化和销毁进程

def ddp_setup(rank, world_size):
    """
    Args:
        rank: Unique identifier of each process
        world_size: Total number of processes
    """
    # rank 0 process
    os.environ["MASTER_ADDR"] = "localhost"
    os.environ["MASTER_PORT"] = "12355"
    # nccl：NVIDIA Collective Communication Library 
    # 分布式情况下的，gpus 间通信
    torch.cuda.set_device(rank)
    init_process_group(backend="nccl", rank=rank, world_size=world_size)

DDP 会在每个 GPU 上运行一个进程，每个进程中都有一套完全相同的 Trainer 副本（包括 model 和 optimizer），各个进程之间通过一个进程池进行通信。

ddp 包装 model

训练函数不需要多大的修改，使用 DistributedDataParallel 包装模型，这样模型才能在各个进程间同步参数。包装后 model 变成了一个 DDP 对象，要访问其参数得这样写 self.model.module.state_dict()

运行过程中单独控制某个进程进行某些操作，比如要想保存 ckpt，由于每张卡里都有完整的模型参数，所以只需要控制一个进程保存即可。需要注意的是：使用 DDP 改写的代码会在每个 GPU 上各自运行，因此需要在程序中获取当前 GPU 的 rank（gpu_id），这样才能对针对性地控制各个 GPU 的行为。

class Trainer:
    def __init__(
        self,
        model: torch.nn.Module,
        train_data: DataLoader,
        optimizer: torch.optim.Optimizer,
        gpu_id: int,
        save_every: int, 
    ) -> None:
        self.gpu_id = gpu_id
        self.model = model.to(gpu_id)
        self.train_data = train_data 
        self.optimizer = optimizer
        self.save_every = save_every
        self.model = DDP(model, device_ids=[gpu_id])    # model 要用 DDP 包装一下

    def _run_batch(self, source, targets):
        self.optimizer.zero_grad()
        output = self.model(source)
        loss = F.cross_entropy(output, targets)
        loss.backward()
        self.optimizer.step()

    def _run_epoch(self, epoch):
        b_sz = len(next(iter(self.train_data))[0])
        print(f"[GPU{self.gpu_id}] Epoch {epoch} | Batchsize: {b_sz} | Steps: {len(self.train_data)}")
        self.train_dataloader.sampler.set_epoch(epoch) # 注意需要在各 epoch 入口调用该 sampler 对象的 set_epoch() 方法，否则每个 epoch 加载的样本顺序都不变
        for source, targets in self.train_data:
            source = source.to(self.gpu_id)
            targets = targets.to(self.gpu_id)
            self._run_batch(source, targets)

    def _save_checkpoint(self, epoch):
        ckp = self.model.state_dict()
        PATH = "checkpoint.pt"
        torch.save(ckp, PATH)
        print(f"Epoch {epoch} | Training checkpoint saved at {PATH}")

    def train(self, max_epochs: int):
        for epoch in range(max_epochs):
            self._run_epoch(epoch)
            if self.gpu_id == 0 and epoch % self.save_every == 0:
                self._save_checkpoint(epoch)

在程序入口初始化进程池；在程序出口销毁进程池

def main(rank: int, world_size: int, save_every: int, total_epochs: int, batch_size: int):
    # 初始化进程池
    ddp_setup(rank, world_size)

    # 进行训练
    dataset, model, optimizer = load_train_objs()
    train_data = prepare_dataloader(dataset, batch_size)
    trainer = Trainer(model, train_data, optimizer, rank, save_every)
    trainer.train(total_epochs)
   
    # 销毁进程池
    destroy_process_group()

DistributedSampler

构造 Dataloader 时使用 DistributedSampler 作为 sampler，这个采样器可以自动将数量为 batch_size 的数据分发到各个GPU上，并保证数据不重叠。理解是可以是这样的，但实际是根据 rank 让每个 gpu 能索引到的数据不一样，每个 gpu 上也是有重复的 Dataloader 的，但每个gpu 上 rank 设置不同，Dataloader sample 先根据 shuffle 打乱顺序，再控制不同 rank 能索引到的数据，以实现类似分发的效果。

Rank 0 sees: [4, 7, 3, 0, 6] Rank 1 sees: [1, 5, 9, 8, 2]

def prepare_dataloader(dataset: Dataset, batch_size: int):
    return DataLoader(
        dataset,
        batch_size=batch_size,
        pin_memory=True,
        shuffle=False,                      # 设置了新的 sampler，参数 shuffle 要设置为 False 
        sampler=DistributedSampler(dataset) # 这个 sampler 自动将数据分块后送个各个 GPU，它能避免数据重叠
    )

set_epoch(epoch) 用于设置当前训练 epoch，以确保在分布式训练中每个进程对数据的打乱顺序一致，从而保证每个 rank 分到的数据是互不重叠且可复现的。

当 DistributedSampler 的 shuffle=True 时，它在每个 epoch 会用 torch.Generator().manual_seed(seed) 生成新的随机索引顺序。
但：

如果不调用 set_epoch()，每个进程将使用相同的默认种子；
会导致每个 epoch 每个进程打乱后的样本索引相同 → 重复取样，每个 epoch 的训练数据都一样 → 训练不正确！

你确实可以不手动设置 rank 和 world_size，因为 DistributedSampler 会自动从环境变量中获取它们。
如果你不传入 rank 和 num_replicas，PyTorch 会调用：

torch.distributed.get_world_size() # 获取 world_size
torch.distributed.get_rank() # 获取当前进程 rank

import torch
from torch.utils.data import Dataset, DataLoader, DistributedSampler

# 自定义一个简单的数据集：返回 [0, 1, ..., n-1]
class RangeDataset(Dataset):
    def __init__(self, n):
        self.data = list(range(n))
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.data[idx]

# 模拟两张卡（进程）下的样本访问情况，并支持 set_epoch
def simulate_distributed_sampler(n=10, world_size=2, num_epochs=2):
    dataset = RangeDataset(n)

    for epoch in range(num_epochs):
        print(f"\nEpoch {epoch}")
        for rank in range(world_size):
            # 设置 shuffle=True 并调用 set_epoch
            sampler = DistributedSampler(
                dataset,
                num_replicas=world_size,
                rank=rank,
                shuffle=True,
            )
            sampler.set_epoch(epoch)  # 关键：确保每轮不同但在所有 rank 一致

            dataloader = DataLoader(dataset, batch_size=1, sampler=sampler)
            data_seen = [batch[0].item() for batch in dataloader]
            print(f"Rank {rank} sees: {data_seen}")

simulate_distributed_sampler(n=10, world_size=2, num_epochs=2)

Epoch 0
Rank 0 sees: [4, 7, 3, 0, 6]
Rank 1 sees: [1, 5, 9, 8, 2]

Epoch 1
Rank 0 sees: [5, 1, 0, 9, 7]
Rank 1 sees: [6, 2, 8, 3, 4]

multiprocessing.spawn 创建多卡进程

使用 torch.multiprocessing.spawn 方法将代码分发到各个 GPU 的进程中执行。在当前机器上启动 nprocs=world_size 个子进程，每个进程执行一次 main() 函数，并由 mp.spawn 自动赋值第一个参数（目的是执行 nprocs 个进程，第一个参数为 0 ~ nprocs-1）。

def start_process(i):
    # Each process is assigned a file to write tracebacks to.  We
    # use the file being non-empty to indicate an exception
    # occurred (vs an expected shutdown).  Note: this previously
    # used a multiprocessing.Queue but that can be prone to
    # deadlocks, so we went with a simpler solution for a one-shot
    # message between processes.
    tf = tempfile.NamedTemporaryFile(
        prefix="pytorch-errorfile-", suffix=".pickle", delete=False
    )
    tf.close()
    os.unlink(tf.name)
    process = mp.Process(
        target=_wrap,
        args=(fn, i, args, tf.name),
        daemon=daemon,
    )
    process.start()
    return i, process, tf.name

if not start_parallel:
    for i in range(nprocs):
        idx, process, tf_name = start_process(i)
        error_files[idx] = tf_name
        processes[idx] = process

可以执行执行以下代码，它展现了 mp 创建进程的效果

import torch.multiprocessing as mp

def run(rank, message):
    print(f"[Rank {rank}] Received message: {message}")

if __name__ == "__main__":
    world_size = 4  # 启动 4 个进程（模拟 4 个GPU）

    mp.spawn(
        fn=run,
        args=("hello world",),   # 注意是 tuple 格式
        nprocs=world_size,
        join=True
    )

效果为:

[Rank 0] Received message: hello world
[Rank 3] Received message: hello world
[Rank 2] Received message: hello world
[Rank 1] Received message: hello world
# 利用 mp.spawn，在整个 distribution group 的 nprocs 个 GPU 上生成进程来执行 fn 方法，并能设置要传入 fn 的参数 args
# 注意不需要传入 fn 的 rank 参数，它由 mp.spawn 自动分配
import multiprocessing as mp
world_size = torch.cuda.device_count()
mp.spawn(
    fn=main, 
    args=(world_size, args.save_every, args.total_epochs, args.batch_size), 
    nprocs=world_size
)

!CUDA_VISIBLE_DEIVES=0,1 python mnist_ddp.py

torchrun

torchrun 是 PyTorch 官方推荐的分布式训练启动工具，它用来自动管理多进程启动、环境变量传递和通信初始化，替代早期的 torch.distributed.launch 工具。

它帮你在每个 GPU 上自动启动一个训练进程；
它设置好 DDP 所需的环境变量（如 RANK, WORLD_SIZE, LOCAL_RANK, MASTER_ADDR 等）；
它会自动将这些参数传递给你的脚本中的 torch.distributed.init_process_group()。

torchrun == python -m torch.distributed.launch --use-env

参数名	类型	说明
`--nproc_per_node`	`int`	每台机器上启动的进程数（默认值为 1）
`--nnodes`	`int`	总节点（机器）数
`--node_rank`	`int`	当前节点编号（范围：`0 ~ nnodes-1`）
`--rdzv_backend`	`str`	rendezvous 后端（默认 `c10d`，一般不改）
`--rdzv_endpoint`	`str`	rendezvous 主地址和端口，格式如 `"localhost:29500"`
`--rdzv_id`	`str`	作业唯一标识，默认 `"default"`
`--rdzv_conf`	`str`	可选的 kv 参数，用逗号分隔，如 `"key1=val1,key2=val2"`
`--max_restarts`	`int`	失败时最多重启次数（默认 3）
`--monitor_interval`	`float`	monitor 进程检查的间隔（秒）
`--run_path`	`str`	若脚本是模块路径形式，比如 `my_module.train`，则用此代替 script
`--tee`	`str`	控制日志输出，可选值为 `"stdout"` 或 `"stderr"`
`--log_dir`	`str`	日志输出目录（默认当前目录）
`--redirects`	`str`	重定向日志，可选：`all`, `none`, `rank`，如 `all:stdout`
`--no_python`	`flag`	若已是 Python 脚本（不用再次 `python` 调用），可加这个 flag

以上的 rendezvous 是每个进程通过 rendezvous 找到主节点，然后加入。之后的通信阶段用 backend, 即 NCCL，在 init_process_group 设置。

最常见的几个参数的用法是

torchrun \
  --nproc_per_node=4 \
  --nnodes=1 \
  --node_rank=0 \
  --rdzv_endpoint=localhost:29500 \
  your_script.py

对比下是否使用 torchrun 时的行为差别

两种 DDP 启动模式的关键区别

对比项	不使用 `torchrun`（手动）	使用 `torchrun`（推荐方式）
启动方式	使用 `mp.spawn(fn, ...)`	使用 `torchrun --nproc_per_node=N`
`rank`, `world_size` 设置方式	手动传入（通过 `spawn` 的参数）	自动由 `torchrun` 设置环境变量
主节点地址 / 端口	你必须手动设置 `MASTER_ADDR/PORT`	`torchrun` 会自动设置这些环境变量
是否需控制进程数量	手动使用 `spawn` 创建	自动由 `torchrun` 创建
是否读取环境变量	❌ 默认不会	✅ 自动从环境变量中读取（如 `RANK`, `LOCAL_RANK`）
脚本能否直接运行（`python train.py`）	❌ 通常不行，需要多进程协调	✅ 支持直接 `torchrun train.py` 运行
是否适用于多机	❌ 手动处理跨节点逻辑	✅ 内建 `--nnodes`, `--node_rank`, 可跨机运行

init_process_group() 的行为

情况	说明
手动传 `rank` 和 `world_size`	常用于 `mp.spawn` 场景（你在代码里传了参数）
不传，内部读取环境变量	如果你用的是 `torchrun`，环境变量如 `RANK`、`WORLD_SIZE` 自动设置了
不传又没用 `torchrun`	❌ 报错：因为 `init_process_group` 找不到必要的通信信息

当你运行：

torchrun --nproc_per_node=4 --rdzv_endpoint=localhost:29500 train.py

它在后台自动设置了以下环境变量（对每个进程）：

RANK=0         # 每个进程唯一编号
WORLD_SIZE=4   # 总进程数
LOCAL_RANK=0   # 当前进程在本节点内的编号
MASTER_ADDR=localhost
MASTER_PORT=29500

而 init_process_group(backend="nccl") 会自动从这些环境变量中解析配置，无需你显式传入。

非 torchrun 完整代码

import os
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torchvision import datasets, transforms
from time import time
import argparse


# 对 python 多进程的一个 pytorch 包装
import torch.multiprocessing as mp
# 用于收集一些用于汇总的数据
import torch.distributed as dist
# 这个 sampler 可以把采样的数据分散到各个 CPU 上                                      
from torch.utils.data.distributed import DistributedSampler     

# 实现分布式数据并行的核心类        
from torch.nn.parallel import DistributedDataParallel as DDP         

# DDP 在每个 GPU 上运行一个进程，其中都有一套完全相同的 Trainer 副本（包括model和optimizer）
# 各个进程之间通过一个进程池进行通信，这两个方法来初始化和销毁进程池
from torch.distributed import init_process_group, destroy_process_group 



def ddp_setup(rank, world_size):
    """
    setup the distribution process group

    Args:
        rank: Unique identifier of each process
        world_size: Total number of processes
    """
    # MASTER Node（运行 rank0 进程，多机多卡时的主机）用来协调各个 Node 的所有进程之间的通信
    os.environ["MASTER_ADDR"] = "localhost" # 由于这里是单机实验所以直接写 localhost
    os.environ["MASTER_PORT"] = "12355"     # 任意空闲端口
    init_process_group(
        backend="nccl",                     # Nvidia CUDA CPU 用这个 "nccl"
        rank=rank,                          
        world_size=world_size
    )
    torch.cuda.set_device(rank)
    

class ConvNet(nn.Module):

    def __init__(self):
        super(ConvNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 32, 3, 1),
            nn.ReLU(),
            nn.Conv2d(32, 64, 3, 1),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Dropout(0.25)
        )
        self.classifier = nn.Sequential(
            nn.Linear(9216, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        output = F.log_softmax(x, dim=1)
        return output
    

# 自定义Dataset
class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        image, label = self.data[idx]
        return image, label


class Trainer:
    def __init__(
        self,
        model: torch.nn.Module,
        train_data: DataLoader,
        optimizer: torch.optim.Optimizer,
        gpu_id: int,
        save_every: int,
    ) -> None:
        self.gpu_id = gpu_id
        self.model = model.to(gpu_id)
        self.train_data = train_data
        self.optimizer = optimizer
        self.save_every = save_every                    # 指定保存 ckpt 的周期
        self.model = DDP(model, device_ids=[gpu_id])    # model 要用 DDP 包装一下


    def _run_batch(self, source, targets):
        self.optimizer.zero_grad()
        output = self.model(source)
        loss = F.cross_entropy(output, targets)
        loss.backward()
        self.optimizer.step()

        # 分布式同步 loss
        reduced_loss = loss.detach()
        dist.all_reduce(reduced_loss, op=dist.ReduceOp.SUM)
        reduced_loss /= dist.get_world_size()
        return reduced_loss.item()


    def _run_epoch(self, epoch):
        b_sz = len(next(iter(self.train_data))[0])
        print(f"[GPU{self.gpu_id}] Epoch {epoch} | Batchsize: {b_sz} | Steps: {len(self.train_data)}")
        self.train_data.sampler.set_epoch(epoch)        # 在各个 epoch 入口调用 DistributedSampler 的 set_epoch 方法是很重要的，这样才能打乱每个 epoch 的样本顺序
        total_loss = 0.0
        num_batches = 0

        for source, targets in self.train_data: 
            source = source.to(self.gpu_id)
            targets = targets.to(self.gpu_id)
            loss = self._run_batch(source, targets)
            total_loss += loss
            num_batches += 1
        
        avg_loss = total_loss / num_batches
        if self.gpu_id == 0:
            print(f"[GPU{self.gpu_id}] Epoch {epoch} | Avg Loss: {avg_loss:.4f}")


    def _save_checkpoint(self, epoch):
        ckp = self.model.module.state_dict()            # 由于多了一层 DDP 包装，通过 .module 获取原始参数 
        PATH = "checkpoint.pt"
        torch.save(ckp, PATH)
        print(f"Epoch {epoch} | Training checkpoint saved at {PATH}")


    def train(self, max_epochs: int):
        for epoch in range(max_epochs):
            self._run_epoch(epoch)
            # 各个 GPU 上都在跑一样的训练进程，这里指定 rank0 进程保存 ckpt 以免重复保存
            if self.gpu_id == 0 and epoch % self.save_every == 0:
                self._save_checkpoint(epoch)


def prepare_dataset():
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
    ])

    train_data = datasets.MNIST(
        root = './mnist',
        train=True,       # 设置True为训练数据，False为测试数据
        transform = transform,
        # download=True  # 设置True后就自动下载，下载完成后改为False即可
    )
      
    train_set = MyDataset(train_data)
    
    test_data = datasets.MNIST(
        root = './mnist',
        train=False,       # 设置True为训练数据，False为测试数据
        transform = transform,
    )
      
    test_set = MyDataset(test_data)
      
    return train_set, test_set
      

def load_train_objs():
    train_set, test_set = prepare_dataset()  # load your dataset
    model = ConvNet()  # load your model
    
    optimizer = optim.Adam(model.parameters(), lr=1e-3)
    return train_set, test_set, model, optimizer


def prepare_dataloader(dataset: Dataset, batch_size: int):
    return DataLoader(
        dataset,
        batch_size=batch_size,
        pin_memory=True,
        shuffle=False,                      # 设置了新的 sampler，参数 shuffle 要设置为 False 
        sampler=DistributedSampler(dataset) # 这个 sampler 自动将数据分块后送个各个 GPU，它能避免数据重叠
    )


def main(rank: int, world_size: int, save_every: int, total_epochs: int, batch_size: int):
    # 初始化进程池, 仅是单个进程 gpu rank 的初始化
    ddp_setup(rank, world_size)

    # 进行训练
    train_set, test_set, model, optimizer = load_train_objs()
    print(f"Train dataset size: {len(train_set)}")
    train_data = prepare_dataloader(train_set, batch_size)
    trainer = Trainer(model, train_data, optimizer, rank, save_every)
    trainer.train(total_epochs)

    # 销毁进程池
    destroy_process_group()


def arg_parser():
    parser = argparse.ArgumentParser(description='MNIST distributed training job')
    parser.add_argument("--epochs", type=int, default=5, help="Number of training epochs")
    parser.add_argument("--batch_size", type=int, default=512, help="Batch size for training")
    parser.add_argument('--save_every', type=int, default=1, help='How often to save a snapshot')
    return parser.parse_args()


r"""
README
执行命令: CUDA_VISIBLE_DEVICES=0,1 python mnist_ddp.py # 用 2 卡训练

注意训练数据是60K条, 训练时输出:
[GPU0] Epoch 0 | Batchsize: 512 | Steps: 59
[GPU1] Epoch 0 | Batchsize: 512 | Steps: 59
512 * 59 = 30208 ~= 30K
排除掉有些 batch_size 不足的情况, 59个 batch 就是 30K, 两个 gpu 平分了数据

"""


if __name__ == "__main__":

    args = arg_parser()
    print(f"Training arguments: {args}")
    
    world_size = torch.cuda.device_count()
    print(f"Using {world_size} GPUs for training")
    
    # 利用 mp.spawn，在整个 distribution group 的 nprocs 个 GPU 上生成进程来执行 fn 方法，并能设置要传入 fn 的参数 args
    # 注意不需要 fn 的 rank 参数，它由 mp.spawn 自动分配
    mp.spawn(
        fn=main, 
        args=(world_size, args.save_every, args.epochs, args.batch_size), 
        nprocs=world_size
    )

启动代码

CUDA_VISIBLE_DEVICES=0,1 python mnist_ddp.py

torchrun 完整代码

import os
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torchvision import datasets, transforms
from time import time
import argparse


# 对 python 多进程的一个 pytorch 包装
import torch.multiprocessing as mp
# 用于收集一些用于汇总的数据
import torch.distributed as dist
# 这个 sampler 可以把采样的数据分散到各个 CPU 上                                      
from torch.utils.data.distributed import DistributedSampler     

# 实现分布式数据并行的核心类        
from torch.nn.parallel import DistributedDataParallel as DDP         

# DDP 在每个 GPU 上运行一个进程，其中都有一套完全相同的 Trainer 副本（包括model和optimizer）
# 各个进程之间通过一个进程池进行通信，这两个方法来初始化和销毁进程池
from torch.distributed import init_process_group, destroy_process_group 



def ddp_setup():
    """
    setup the distribution process group

    Args:
        rank: Unique identifier of each process
        world_size: Total number of processes
    """
    # 用torchrun 后台自动设置的环境变量
    init_process_group(backend="nccl")
    torch.cuda.set_device(int(os.environ['LOCAL_RANK']))
    

class ConvNet(nn.Module):

    def __init__(self):
        super(ConvNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 32, 3, 1),
            nn.ReLU(),
            nn.Conv2d(32, 64, 3, 1),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Dropout(0.25)
        )
        self.classifier = nn.Sequential(
            nn.Linear(9216, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        output = F.log_softmax(x, dim=1)
        return output
    

# 自定义Dataset
class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        image, label = self.data[idx]
        return image, label


class Trainer:
    def __init__(
        self,
        model: torch.nn.Module,
        train_data: DataLoader,
        optimizer: torch.optim.Optimizer,
        save_every: int,
    ) -> None:
        self.gpu_id = int(os.environ['LOCAL_RANK']) # gpu_id 由 torchrun 自动设置
        self.model = model.to(self.gpu_id)
        self.train_data = train_data
        self.optimizer = optimizer
        self.save_every = save_every                    # 指定保存 ckpt 的周期
        self.model = DDP(model, device_ids=[self.gpu_id])    # model 要用 DDP 包装一下


    def _run_batch(self, source, targets):
        self.optimizer.zero_grad()
        output = self.model(source)
        loss = F.cross_entropy(output, targets)
        loss.backward()
        self.optimizer.step()

        # 分布式同步 loss
        reduced_loss = loss.detach()
        dist.all_reduce(reduced_loss, op=dist.ReduceOp.SUM)
        reduced_loss /= dist.get_world_size()
        return reduced_loss.item()


    def _run_epoch(self, epoch):
        b_sz = len(next(iter(self.train_data))[0])
        print(f"[GPU{self.gpu_id}] Epoch {epoch} | Batchsize: {b_sz} | Steps: {len(self.train_data)}")
        self.train_data.sampler.set_epoch(epoch)
        total_loss = 0.0
        num_batches = 0

        for source, targets in self.train_data: 
            source = source.to(self.gpu_id)
            targets = targets.to(self.gpu_id)
            loss = self._run_batch(source, targets)
            total_loss += loss
            num_batches += 1
        
        avg_loss = total_loss / num_batches
        if self.gpu_id == 0:
            print(f"[GPU{self.gpu_id}] Epoch {epoch} | Avg Loss: {avg_loss:.4f}")


    def _save_checkpoint(self, epoch):
        ckp = self.model.module.state_dict()            # 由于多了一层 DDP 包装，通过 .module 获取原始参数 
        PATH = "checkpoint.pt"
        torch.save(ckp, PATH)
        print(f"Epoch {epoch} | Training checkpoint saved at {PATH}")


    def train(self, max_epochs: int):
        for epoch in range(max_epochs):
            self._run_epoch(epoch)
            # 各个 GPU 上都在跑一样的训练进程，这里指定 rank0 进程保存 ckpt 以免重复保存
            if self.gpu_id == 0 and epoch % self.save_every == 0:
                self._save_checkpoint(epoch)


def prepare_dataset():
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
    ])

    train_data = datasets.MNIST(
        root = './mnist',
        train=True,       # 设置True为训练数据，False为测试数据
        transform = transform,
        # download=True  # 设置True后就自动下载，下载完成后改为False即可
    )
      
    train_set = MyDataset(train_data)
    
    test_data = datasets.MNIST(
        root = './mnist',
        train=False,       # 设置True为训练数据，False为测试数据
        transform = transform,
    )
      
    test_set = MyDataset(test_data)
      
    return train_set, test_set
      

def load_train_objs():
    train_set, test_set = prepare_dataset()  # load your dataset
    model = ConvNet()  # load your model
    
    optimizer = optim.Adam(model.parameters(), lr=1e-3)
    return train_set, test_set, model, optimizer


def prepare_dataloader(dataset: Dataset, batch_size: int):
    return DataLoader(
        dataset,
        batch_size=batch_size,
        pin_memory=True,
        shuffle=False,                      # 设置了新的 sampler，参数 shuffle 要设置为 False 
        sampler=DistributedSampler(dataset) # 这个 sampler 自动将数据分块后送个各个 GPU，它能避免数据重叠
    )


def main(save_every: int, total_epochs: int, batch_size: int):
    # 初始化进程池, 仅是单个进程 gpu rank 的初始化
    ddp_setup()

    # 进行训练
    train_set, test_set, model, optimizer = load_train_objs()
    print(f"Train dataset size: {len(train_set)}")
    train_data = prepare_dataloader(train_set, batch_size)
    trainer = Trainer(model, train_data, optimizer, save_every)
    trainer.train(total_epochs)

    # 销毁进程池
    destroy_process_group()


def arg_parser():
    parser = argparse.ArgumentParser(description='MNIST distributed training job')
    parser.add_argument("--epochs", type=int, default=5, help="Number of training epochs")
    parser.add_argument("--batch_size", type=int, default=512, help="Batch size for training")
    parser.add_argument('--save_every', type=int, default=1, help='How often to save a snapshot')
    return parser.parse_args()


r"""
README
执行命令: CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 mnist_ddp_torchrun.py
"""


if __name__ == "__main__":

    args = arg_parser()
    print(f"Training arguments: {args}")
    
    world_size = torch.cuda.device_count()
    print(f"Using {world_size} GPUs for training")

    main(
        args.save_every, 
        args.epochs, 
        args.batch_size
    )

启动代码

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 mnist_ddp_torchrun.py

你可能感兴趣的:(分布式,MNIST)

Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
多通道 ISP（双 ISP）并行处理机制解析：架构演进、资源调度与实战配置路径观熵影像技术全景图谱：架构调优与实战接口隔离原则架构影像 Camera
多通道ISP（双ISP）并行处理机制解析：架构演进、资源调度与实战配置路径关键词：双ISP、并行图像处理、多Sensor管线、分布式调度、ISP平衡调度、帧同步、多路输入、SoC图像架构摘要：随着智能手机多摄系统的普及，传统单通道ISP架构已无法满足同时驱动多颗高分辨率摄像头、并发处理视频与拍照任务的性能需求。为此，各大SoC厂商纷纷引入“双ISP”或“多通道ISP”设计，用于提升吞吐能力、降低延
【链路追踪】 WIN赢面试专栏性能优化自动化
一、什么是链路追踪链路追踪（Tracing）是一种用于分布式系统中跟踪请求处理过程的技术。它通过记录一次请求在多个服务之间的流转路径、耗时、状态等信息，帮助开发人员快速定位问题、分析性能瓶颈，并理解系统中各组件的交互关系。链路追踪不仅是一种强大的监控手段，也是测试人员在分布式系统中不可或缺的测试工具。它能够帮助测试人员快速定位问题、分析性能瓶颈，并优化系统性能，从而提高测试效率和质量二、核心概念T
Kafka事务机制详解一碗黄焖鸡三碗米饭 Kafka全景解析 kafka 分布式 Java 副本事务分区大数据
目录Kafka事务机制详解1.Kafka中的事务概述2.Kafka事务的基本概念2.1精确一次处理（ExactlyOnceSemantics，EOS）2.2Kafka事务的工作流程3.Kafka事务的配置与使用3.1生产者端的事务配置3.2消费者端的事务配置4.Kafka事务的优势与限制4.1Kafka事务的优势4.2Kafka事务的限制5.总结在分布式系统中，事务性操作（如数据库事务）是非常重要
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥密落霞归雁 AI编程教育电商微信开放平台 rabbitmq 中间件
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥秘在当今数字化时代，消息队列（MessageQueue，简称MQ）已经成为分布式系统中不可或缺的组件，而ApacheKafka作为其中的佼佼者，以其卓越的性能和广泛的应用场景脱颖而出。今天，就让我们用一句话读懂Kafka，并通过5W1H（What、Why、Who、When、Where、How）的方式，深入剖析它的核心价值与技术魅力。一句话读懂
【绪论】两万字长文——深度解析24种软件系统架构风格
深度解析软件系统架构风格软件架构风格（ArchitecturalStyle）是描述软件系统组织方式的高层范式，它定义了系统的结构元素及其交互模式、约束条件和语义。选择合适的架构风格是系统成功的关键，它决定了系统的可扩展性、可维护性、性能、可靠性、部署复杂度和团队协作方式。从经典的分层架构到前沿的量子计算架构，架构风格的演进反映了软件工程应对复杂性、分布式、实时性和智能化需求的持续探索。掌握这些风格
Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战
目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略
Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战
目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方