AI算力是人工智能系统的核心基础设施,涵盖了从计算精度、传输协议到硬件架构的完整技术栈。
原生满血版 DeepSeek 671B 是 FP8 精度。
FP16在训练计算力占比有80-90%,FP32占比10%-20%。大模型训练中通常会用到 FP16(半精度浮点数),但并不是只使用FP16,而是采用**混合精度训练(Mixed Precision Training)**的方式。
在模型的前向传播和反向传播中,使用 FP16 来加速矩阵运算,同时减少显存占用。这是因为FP16相比FP32占用内存更少,计算速度更快,尤其是在支持Tensor Cores的硬件(如NVIDIA GPU)上表现尤为明显。
在权重更新、梯度累积和损失函数计算等关键步骤中,则使用 FP32(单精度浮点数),以保证数值的稳定性和精度,避免数值溢出或下溢的问题。
优势:混合精度训练既能显著提升训练速度,又能保持模型的收敛性和准确性。
大模型推理的计算力分配以低精度(FP16/BF16/INT8)为主,结合硬件加速和模型结构优化(如MoE、MoD)实现效率与精度的平衡。
未来趋势包括更低比特量化(如4-bit)、专用硬件设计(针对Prefill/Decode阶段)及端-云协同的分布式推理。
参考链接:一文了解模型精度(FP16、FP8等)、所需显存计算以及量化概念
GPU池化技术实现了GPU资源的统一管理和动态分配。
参考链接:GPU池化技术详解
参考链接:AI 智算平台-基石智算
参考链接:AI 时代 Kubernetes GPU 调度器怎么选?最佳实践告诉你
参考链接:知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案
参考链接:一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云
nvidia-smi:nvidia-smi(NVIDIA System Management Interface)是一个命令行工具,用于管理和监控NVIDIA GPU设备。
CUDA Toolkit:nvcc(NVIDIA CUDA Compiler)是 CUDA Toolkit 的核心组件之一,是NVIDIA CUDA编译器,用于编译CUDA程序。CUDA是一种由NVIDIA推出的并行计算平台和编程模型,用于利用NVIDIA GPU进行通用计算(即GPGPU)。nvcc 将CUDA代码(通常是.cu文件)编译成可以在NVIDIA GPU上执行的机器码。
CUDA之上有cuDNN训练、TensorRT训练。
wsl安装cuda步骤:
python -c "import torch; print(torch.cuda.is_available())"
深圳大学H100采购项目(2024年12月):
技术规格要求:
参考链接:995万元,4台H100:深圳大学
GPU和CPU在AI算力中扮演不同的角色,各有其独特的优势和应用场景。
TFLOPS指标对比:Nvidia的A100 GPU可以达到9.7 TFLOPS(每秒9.7万亿次运算),而最新的Intel 24核处理器只能达到0.33 TFLOPS。这意味着,即便是中等配置的GPU,其速度也至少是顶级CPU的30倍以上。
顺序程序:所有指令必须一个接一个、按部就班地依次执行。这类程序适合CPU处理,因为CPU拥有少量的大核心,能够高效处理复杂的逻辑和决策。
并行程序:多个指令可以同时执行,因为它们之间不存在依赖关系。这类程序适合GPU处理,因为GPU包含大量的小核心(例如NVIDIA H100 GPU有数千个核心),可以同时对不同的数据执行相同的操作。
混合程序:大多数实际应用都是由顺序和并行代码混合组成的。例如,一个程序可能50%可并行化,即一半的指令可以独立执行。
CPU设计特点:
GPU设计特点:
CPU适用场景:
GPU适用场景:
参考链接:“既然 GPU 这么好,那为什么我们还要用 CPU?”
参考链接:英伟达 V100、A100/800、H100/800 GPU 对比
参考链接:Nvidia 系列显卡
nvidia架构演进:Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell
参考链接:这篇GPU学习笔记,详细整理了其工作原理、编程模型和架构设计