如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型:业界首次公开非英伟达体系下解决此类技术难题的论文

本文基于华为团队与硅基流动(Silicon Flow)联合署名的论文《Serving Large Language Models on Huawei CloudMatrix384》的简要解说与技术分析文章,深入剖析了CloudMatrix384架构设计、CloudMatrix-Infer推理引擎实现及其在DeepSeek-R1模型上的性能表现。
如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型:业界首次公开非英伟达体系下解决此类技术难题的论文_第1张图片

文章目录

    • 1. 引言
    • 2. 背景与动机
      • 2.1 LLM发展趋势与部署挑战
      • 2.2 非NVIDIA生态的技术空白
    • 3. CloudMatrix384超节点架构详解
      • 3.1 统一总线(UB)网络:全互联设计
      • 3.2 硬件组件
      • 3.3 软件堆栈
    • 4. DeepSeek-R1模型部署与CloudMatrix-Infer
      • 4.1 PDC拆分的点对点服务架构
      • 4.2 大规模专家并行(EP)策略
      • 4.3 资源高效的Prefill流水线与混合并行
      • 4.4 UB驱动的分布式缓存
      • 4.5 INT8量化
    • 5. 性能评测与对比
    • 6. 工程实现关键技术
    • 7. 讨论与未来展望
    • 8. 总结


1. 引言

随着大规模语言模型(LLM)参数规模不断攀升、Mixture-of-Experts(MoE)架构的广泛采用以及上下文长度需求激增,传统AI集群在算力强度、内存带宽、芯片间通信延迟和严格的服务级延迟指标方面面临前所未有的挑战(arxiv.org)。论文提出了面向下一代AI基础设施的华为CloudMatrix超节点构想,并在CloudMatrix384上实现了第一款量产级系统,通过软硬件协同优化,完美契合了DeepSeek等大规模MoE模型的部署需求(arxiv.org)。

flowchart TB
  subgraph CloudMatrix384 超节点
    direction TB
    NPUs[Ascend 910C NPU × 384]
    CPUs[Kunpeng CPU × 192]
    UB[Unified Bus 网络]
    NPUs <-->|高带宽| UB
    CPUs <-->|低时延| UB
  end

  subgraph CloudMatrix-Infer 推理引擎
    direction LR
    Prefill[Prefill 阶段] -->|上下文张量| Decode
    Decode[Decode 阶段] -->|生成 Token| Cache
    Cache[Cache 管理]
  end

  %% 连接超节点与推理引擎
  UB -->|调度与数据| Prefill
  UB -->|流水化通信| Decode
  UB -->|上下文/模型| Cache

  %% 专家并行细节
  subgraph EP320 Token 分发
    direction TB
    Prefill -->|Fused All2All| EP
    Decode -->|AllGather| EP
    EP[320 节点 MoE 专家]
  end

如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型:业界首次公开非英伟达体系下解决此类技术难题的论文_第2张图片


2. 背景与动机

2.1 LLM发展趋势与部署挑战

  • 参数与混合专家架构:当前LLM参数量已突破千亿级别,MoE模型通过激活部分专家(expert)实现高效扩展,但也带来专家调度和通信瓶颈(arxiv.org)。
  • 爆发性、多样化负载:实际服务中请求模式呈现高度突发性与多样性,输入长度可变且专家激活不均衡,对硬件资源的动态调度提出了严苛要求(arxiv.org)。
  • 严格延迟SLO:对话场景下,端到端响应时延(TPOT)通常需低于50ms,甚至在某些应用场景下低于15ms,对网络交换与调度效率提出极高标准(arxiv.org)。

2.2 非NVIDIA生态的技术空白

大多数公开的LLM部署方案基于NVIDIA GPU生态,缺乏对其他架构平台的深度解析。华为CloudMatrix384是首个披露非NVIDIA体系下完整软硬件协同解决方案的超节点,有望为业界提供新的思路与对比基准(arxiv.org)。


3. CloudMatrix384超节点架构详解

3.1 统一总线(UB)网络:全互联设计

CloudMatrix384通过Ultra-high-bandwidth, low-latency Unified Bus(UB)实现384颗Ascend 910C NPU与192颗Kunpeng CPU之间的全互联,全节点资源(计算、内存、网络)可按需动态汇聚、独立伸缩,消除了传统分层网络的通信瓶颈并简化了资源调度(arxiv.org)。

3.2 硬件组件

  • Ascend 910C 芯片与节点:每颗910C NPU支持高达256 GB/s的内存带宽,并提供丰富的AI算子加速(arxiv.org)。
  • Kunpeng CPU 集群:作为控制平面及轻量型计算节点,Kunpeng CPU负责预处理、调度和KV缓存管理等任务,与NPU通过UB无缝协同。
  • UB Switch 系统:专用交换芯片群构成的低时延、全带宽交换网络,为点对点的高频通信提供可靠保障(arxiv.org)。

3.3 软件堆栈

  • CANN for Ascend NPUs:底层算子库和编译器优化,为多样化算子(GEMM、激活、通信)提供高效实现。
  • 分布式基础设施软件:包括任务调度、集群管理和资源监控平台,支持CloudMatrix节点级与集群级部署(arxiv.org)。
  • KB-Cache与调度策略:通过UB网络实现统一内存访问,KV Cache可在NPU与CPU之间动态迁移,避免了数据本地化带来的额外复制与延迟(arxiv.org)。

4. DeepSeek-R1模型部署与CloudMatrix-Infer

4.1 PDC拆分的点对点服务架构

CloudMatrix-Infer将模型推理流程拆分为三大阶段:Prefill、Decode、Cache,分别部署在可独立伸缩的资源池中。UB网络的高带宽使各阶段间数据交换延迟微乎其微,从而在保证高吞吐的同时,灵活应对请求量波动(arxiv.org)。

4.2 大规模专家并行(EP)策略

  • EP320高效Token分发:每颗NPU承载一个专家副本,通过UB网的点对点通信算子(Fused All2All、AllGather)将token并行分发至320颗节点,极大降低通信聚合延迟(arxiv.org)。
  • 微批次流水化:将解码过程切分为多个微批次,实现算力与通信的重叠调度,进一步降低TPOT并提升资源利用率(arxiv.org)。
  • MLA与算子优化:针对MoE中关键的多头注意力算子(MLA),融合自定义低级通信原语与算子计算,确保大规模并行场景下的算子性能(arxiv.org)。

4.3 资源高效的Prefill流水线与混合并行

  • 混合并行策略:结合数据并行(DP)和模型并行(MP),针对前向计算阶段(Prefill)合理拆分张量与算子,平衡带宽与计算负载(arxiv.org)。
  • 流水线隔离:Prefill与Decode之间采用轻量级缓冲与UB驱动的分布式缓存,最大程度降低两阶段资源冲突(arxiv.org)。

4.4 UB驱动的分布式缓存

  • 统一内存访问:利用UB网络实现全节点内存池(Disaggregated Memory Pooling),上下文与模型权重缓存可在NPU与CPU间透明访问,极大提升Cache命中率与整体性能(arxiv.org)。
  • Context/Model Caching细粒度策略:对会话历史与模型子模块分别设计缓存替换与预取机制,兼顾命中率与内存占用(arxiv.org)。

4.5 INT8量化

在Ascend 910C上通过硬件感知的量化流程,将模型权重与激活映射至INT8格式,同时在16个基准测试集上验证与官方DeepSeek-R1 API精度无显著差异,证明量化方案的可行性(arxiv.org)。

如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型:业界首次公开非英伟达体系下解决此类技术难题的论文_第3张图片


5. 性能评测与对比

  • 吞吐与延迟:在DeepSeek-R1模型下,CloudMatrix-Infer实现了每NPU 6,688 tokens/s的Prefill吞吐与1,943 tokens/s的Decode吞吐(TPOT < 50 ms),对应4.45 tokens/s/TFLOPS(Prefill)与1.29 tokens/s/TFLOPS(Decode)的计算效率,均优于公开的H100+SGLang及H800+DeepSeek部署结果(arxiv.org)。
  • 低延迟场景:在TPOT < 15 ms的严格约束下,CloudMatrix-Infer仍能维持538 tokens/s的Decode吞吐,展现出优异的延迟-吞吐平衡能力(arxiv.org)。
  • 算子级性能:定制化通信算子、MLA与GEMM算子在UB网络与CANN库加持下实现了接近理论带宽与计算峰值的性能,确保整体系统高效运转(arxiv.org)。

6. 工程实现关键技术

  1. 自定义通信原语:针对EP并行场景开发Fused All2All与AllGather算子,减少中间缓冲与调度开销(arxiv.org)。
  2. 硬件感知算子融合:在算子实现层面引入硬件拓扑信息,实现跨NPU DMA与计算的流水线化融合(arxiv.org)。
  3. 微批次与多Token预测支持:解码管线支持多Token并行预测(MTP),提升了批内并行度与资源利用率(arxiv.org)。
  4. 统一缓存框架:实现跨设备上下文与模型权重缓存的透明访问,并结合分层缓存策略,兼顾命中率、带宽与内存占用(arxiv.org)。

7. 讨论与未来展望

  • 下一代CloudMatrix演进:论文展望将VPC与RDMA平面统一,支持更灵活的多租户隔离与QoS保障(arxiv.org)。
  • 更大规模MoE支持:未来可结合更高EP度与动态专家加载技术,满足千亿级MoE模型的部署需求。
  • 软硬件协同优化:随着算子库与网络协议演进,CloudMatrix可进一步降低SLO尾延迟并提升资源效率。

8. 总结

本论文首次在非NVIDIA体系下,完整阐释了从硬件架构、网络设计到推理引擎实现的全流程技术细节,证明了CloudMatrix384在大规模MoE模型部署中的卓越性能与可扩展性。其前瞻性的超节点设计以及高效的CloudMatrix-Infer推理方案,为业界提供了新的AI基础设施范式,对未来LLM服务化具有重要借鉴意义。

你可能感兴趣的:(猫头虎,AI,探索之路,计算机视觉,人工智能,tensorflow,深度学习,机器学习,语言模型,chatgpt)