【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)

目录

1. 初始化与日志记录

2. 安装基础工具与配置更新

3. NVIDIA 驱动安装 570.124.06

4. 安装 Mellanox OFED 24.10-2.1.8.0

5. 安装 CUDA 12.8

6. 安装 NCCL 和测试

7. 配置 rc.local 和其他优化

8. B200 单独步骤

9. 最终测试与重启

10. 完整生产脚本,复制即可直接使用

总结


1. 初始化与日志记录

LOG_DIR="/opt/packages"
mkdir -p $LOG_DIR
LOG_FILE="${LOG_DIR}/instal_$(date +%Y%m%d_%H%M%S).log"

exec > >(tee -a "$LOG_FILE")
exec 2>&1

START_TIME=$(date +"%Y-%m-%d %H:%M:%S")
START_SECONDS=$(date +%s)
echo "脚本开始执行时间: $START_TIME"
  • 功能
    • 设置日志目录和日志文件路径。
    • 使用 tee 命令将标准输出和错误输出同时写入日志文件和终端。
    • 记录脚本开始时间,并计算开始的秒数(用于后续计算耗时)。

你可能感兴趣的:(AI大模型底层建设,ubuntu,数据库,postgresql)