实验室服务器部署

实验室需要搭建多人共用的GPU服务器, 参考
基于LXD搭建多人共用GPU服务器,简单易用,全网最详细!比特桃的博客-CSDN博客带gpu的服务器
最终选择DELL T640塔式服务器,过程中遇到很多问题,记录下来,避免重复踩坑
同时附上配置中看到的一些好的解决方案方便查找

1.机器到货配置情况

戴尔T640塔式服务器
2个 英特尔至强 金牌 6226R
4个 内存:64GB
3个 硬盘:2TB
1个 固态:960G
1个 阵列卡:H750
2个 显卡:RTX3090
1个 套件:GPU套件
2个 电源:1100W
未安装操作系统

2.噪音问题解决方法

T640到货后,发现机器噪音很大,达到90分贝,无法忍受
参考程灵狐Dell PowerEdge T640 风扇噪音问题的解决 - 知乎 (zhihu.com)
3090不是官方认证显卡型号,服务器识别错误导致无法根据GPU温度自动调节风扇转速
尝试后可行的解决方案

  1. 更新idrac到4.40以及以下的版本
    IDRAC简介:iDRAC卡相当于是附加在服务器上的一台小电脑,通过与服务器主板上的管理芯片BMC进行通信,监控与管理服务器的硬件状态信息。它拥有自己的系统和IP地址,与服务器上的OS无关。
    a.IDRAC远程控制卡的配置与连接:参考戴尔中国服务公众号 玩转服务器(二)| Polaris(14G) 服务器IDRAC 9的IP配制方法 (qq.com)
    b.配置IDRAC的IP地址相关信息后需要将笔记本与服务器用网线连接并配置笔记本IP
    IP地址修改方法参考win10电脑怎么修改ip地址? - 系统之家 (xitongzhijia.net)
    c.登录IDRAC管理界面更新IDRAC
    更新方法参考戴尔中国服务公众号 14G服务器如何在IDRAC下更新BIOS (qq.com)
    iDRAC驱动下载地址iDRAC 4.40.00.00 | 驱动程序详情 | Dell 中国
    注:原始用户名为root原始,密码为calvin
  2. 调节散热配置
    只进行IDRAC更新还不够,还需要对散热配置进行修改
    搜索散热配置->将自动风扇转速改为最小功率(每瓦性能已优化)->阈值:PWM形式最小风扇转速自定义为较小数值
  3. 该方法缺陷
    机器重启后会重新回到高噪音状态,需要重新更新一边IDRAC版本,目前未成功尝试其他方法

3.Ubuntu系统安装

供货商已经对RAID进行了配置,直接进行系统安装

  1. Ubuntu20.04启动盘制作
    参考(30条消息) 我奶奶不戴眼镜都能学会的服务器配置教程-----基于DELL T640(一)Ubuntu系统安装_Lees_HN的博客-CSDN博客
    阿里云开源镜像 阿里云开源镜像站资源目录 (aliyun.com)
  2. 系统安装
    注:键盘布局已经自动选择无须更改
    装系统过程中犯了一个很愚蠢的错误,在BIOS中将USB禁掉导致键鼠无法控制
    解决方案是打开侧面的机箱盖,拿出显卡后抠掉主板的纽扣电池


    服务器机箱
主板电池

4.尝试连接服务器

  1. Xshell连接
    通过Xshell使用账号密码登录 参考 xshell远程连接服务器 - 知乎 (zhihu.com)
    Xshell下载地址家庭/学校免费 - NetSarang Website (xshell.com)
  2. 通过 pub key免密码登录
    参考 ssh之pub-key登陆服务器_后端大佬-明哥哥的博客-CSDN博客_pubkey

5.英伟达驱动安装

参考Ubuntu20.04安装NVIDIA显卡驱动+cuda+cudnn配置深度学习环境 | 机器学习之路 (mlzhilu.com)
Nouveau为ubuntu原装开源驱动需要禁用
安装之前需要进入英伟达官网下载相应驱动
非常奇怪的是装好驱动以后ubuntu的图形界面打不来了
重装lightdm和ubuntu-desktop后解决问题

6.后续

基本参考
基于LXD搭建多人共用GPU服务器,简单易用,全网最详细!比特桃的博客-CSDN博客带gpu的服务器
使用 LXD 搭建多人使用的 GPU 服务器 | XUNGE's Blog (xungejiang.com)
最终成功实现

远程桌面连接

你可能感兴趣的:(实验室服务器部署)