Ubuntu 22.04 庙算平台训练环境搭建指南

本文记录了基于 Ubuntu 22.04.3 LTS 的训练环境搭建过程,适用于需要部署庙算推演离线平台的用户,支持 GPU(可选)。


一、训练环境搭建

● 硬件要求

  • 操作系统:Linux(推荐 Ubuntu 22.04.3 LTS)
  • 可选配置:NVIDIA GPU(CUDA 支持)

1. Linux 环境搭建

建议双系统安装 Ubuntu,具体参考如下教程:

参考教程:Windows 和 Ubuntu 双系统的安装和卸载(哔哩哔哩)


2. GPU 训练环境配置(可选)

如果需要 GPU 加速训练,需安装并配置 CUDA、cuDNN、显卡驱动等。

参考教程

Ubuntu搭建Pytorch环境(Anaconda、Cuda、cuDNN、Pytorch、Python、Pycharm、Jupyter) - CSDN博客


3. Miniconda 安装(用于管理 Python 环境)

推荐版本:Miniconda 23.9.0
建议安装路径/home/{user}/

安装教程
Miniconda 安装参考 - 知乎


4. 庙算平台环境配置

4.1 创建 Python 虚拟环境
conda create -n myenv python=3.10
source activate myenv  # 或 conda activate myenv
4.2 下载庙算推演离线平台代码

参考文档地址:http://wargame.ia.ac.cn/docs/

下载并安装本地 .whl 文件、解压 Data.zip,运行:

python run_offline_games.py

运行成功后应显示 SDK 版本信息。


4.3 安装依赖

在庙算平台根目录下创建 requirements.txt

getmac==0.9.4
mkl-service==2.4.0
pandas==2.1.4
protobuf==3.20.3
pyasn1-modules==0.2.8
python-dateutil==2.8.2
pytz==2023.3.post1
torch==2.0.1
triton==2.0.0
tzdata==2023.4

安装依赖:

pip install -r requirements.txt

5. 推荐程序开发 IDE

  • VS Code
  • PyCharm
  • IntelliJ IDEA

二、问题汇总与解决方案


did not pass authentication 问题

原因:SDK 版本过时

解决方案

  1. 删除 land_wargame_train_env 包:

    pip uninstall land_wargame_train_env
    
  2. 重新安装最新的 .whl 文件

  3. 删除配置文件(如存在):

    rm ~/.engin_config
    

查看 CUDA 版本命令未找到:nvidia-smi

报错信息

Command 'nvidia-smi' not found, but can be installed with:
apt install nvidia-utils-xxx

解决方案

1. 安装对应版本的驱动

参考教程:Ubuntu物理机显卡驱动安装的几种方式 - CSDN博客

2. 驱动安装后仍然无效?常见报错:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.

参考完整解决方案:NVIDIA-SMI has failed 详细解决方案 - CSDN博客


总结

以上为在 Ubuntu 环境下搭建庙算推演离线平台的全过程,包括 GPU 支持、环境依赖、常见报错排查等内容,欢迎收藏分享。


附:可选安装 nvidia-smi 命令推荐版本

以下为 Ubuntu 可用的 nvidia-utils 驱动版本(仅供参考):

apt install nvidia-utils-390
apt install nvidia-utils-470
apt install nvidia-utils-525
apt install nvidia-utils-535
...

具体版本应与显卡型号和 CUDA 兼容版本一致。

你可能感兴趣的:(ubuntu,linux,深度学习)