nvidia-smi

nvidia-smiNVIDIA System Management Interface 的缩写。它是 NVIDIA 提供的一个命令行实用程序,用于管理和监控 NVIDIA GPU 显卡。nvidia-smi 提供了关于 GPU 的详细信息,包括但不限于:

  • GPU 的型号和序列号。
  • 驱动程序版本。
  • GPU 的使用率、温度和功率消耗。
  • 显存使用情况。
  • 正在运行的进程及其显存占用。

这个工具主要用于性能监测、配置管理、故障诊断等,尤其是在服务器和高性能计算环境中非常有用。通过 nvidia-smi,系统管理员和用户可以实时了解 GPU 的运行状态,并进行适当的优化和管理。

root@sh:/home/sh# nvidia-smi
Thu Dec 28 17:26:46 2023       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02             Driver Version: 535.146.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3090        Off | 00000000:17:00.0 Off |                  N/A |
| 30%   28C    P0             109W / 350W |      0MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce RTX 3090        Off | 00000000:65:00.0 Off |                  N/A |
| 30%   29C    P0             100W / 350W |      0MiB / 24576MiB |      6%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |

这个 nvidia-smi 命令输出提供了详细的信息关于系统中安装的 NVIDIA GPU 的状态。以下是输出结果的详细解释,以表格形式展示:

项目 描述 GPU 0 GPU 1
Driver Version NVIDIA 驱动程序的版本号。 535.146.02 535.146.02
CUDA Version 安装的 CUDA 版本。 12.2 12.2
GPU Name GPU 的型号。 NVIDIA GeForce RTX 3090 NVIDIA GeForce RTX 3090
Persistence-M GPU 的持久模式设置。 Off Off
Bus-Id GPU 在 PCI 总线上的位置。 00000000:17:00.0 00000000:65:00.0
Disp.A 显示活动状态。 Off Off
Volatile Uncorr. ECC 易失性未校正的 ECC(错误校正码)状态。 N/A N/A
Fan GPU 风扇速度的百分比。 30% 30%
Temp GPU 的温度(摄氏度)。 28C 29C
Perf 性能状态,如 P0,表示当前 GPU 的性能级别。 P0 P0
Pwr: Usage/Cap 当前功率使用量和最大功率上限(瓦特)。 109W / 350W 100W / 350W
Memory-Usage GPU 内存的使用量和总量(以 MiB 为单位)。 0MiB / 24576MiB 0MiB / 24576MiB
GPU-Util GPU 的使用率百分比。 0% 6%
Compute M. GPU 的计算模式,如 Default。 Default Default
MIG M. MIG(多实例 GPU)模式,适用于支持此功能的 GPU。 N/A N/A
Processes 显示在 GPU 上运行的进程及其 GPU 内存使用情况。 无运行进程 无运行进程

解释:

  • 这个输出展示了系统中有两块 NVIDIA GeForce RTX 3090 显卡,目前都没有在运行计算密集型进程。
  • 每块显卡的风扇转速都保持在 30%,温度分别为 28℃ 和 29℃,这表示它们目前处于相对闲置的状态。
  • GPU 0 的功率使用率是 109W,而 GPU 1 是 100W,都远低于它们的最大功率上限(350W)。
  • GPU 内存没有被使用(0 MiB / 24576 MiB),GPU 利用率也很低(GPU 0 为 0%,GPU 1 为 6%)。
  • “Persistence-M” 设置为 Off,表示 GPU 没有被设置为持久模式。在持久模式下,GPU 会保持高性能状态,即使没有运行进程也不会降低性能状态,这有助于减少启动新任务时的延迟。

你可能感兴趣的:(人工智能,linux,运维)