目前,市面上主流的HPC调度器分为LSF、SGE、Slurm、SGE四大类型,不同行业根据自身场景和不同调度器对应用支持力度的不同,往往会有不同的偏好,在芯片设计公司中最常用的是LSF
LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。
下文将简单介绍在实验环境中安装部署LSF的过程,仅供参考
1、准备四台虚拟机,并部署好centos7.6
主机名 | IP地址 | 角色 |
lsf-master | 192.168.0.81 | 管理节点&计算节点 |
lsf-node1 | 192.168.0.82 | 计算节点 |
lsf-node2 | 192.168.0.83 | 计算节点 |
nfs | 192.168.0.84 | 共享存储 |
2、配置主机名和名称解析
#hostnamectl set-hostname lsf-master
#hostnamectl set-hostname lsf-node1
#hostnamectl set-hostname lsf-node2
#hostnamectl set-hostname nfs
3、关闭selinux,firewalled
#sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config
#systemctl stop firewalld
#systemctl disable firewalld
4、创建用户
#useradd -m lsfadmin
5、设置免密登录
#ssh-keygen
#ssh-copy-id [email protected]
#ssh-copy-id [email protected]
#ssh-copy-id [email protected]
6、nfs共享存储搭建(略)
7、挂载共享存储
#mkdir -p /opt/lsf
#vi /etc/exports
#exportfs -r
#systemctl stop iptables(如已关闭iptables则不需要执行)
#mkdir -p /opt/lsf
#echo "nfs:/opt/lsf /opt/lsf nfs defaults 0 0">>/etc/fstab
#mount -a
1、上传LSF安装包到lsf-master节点
2、设置安装目录(建议设置为空的安装目录,否则目录中的文件会被覆盖掉)
#mkdir /opt/lsf/install
3、将“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”“lsf_std_entitlement.dat”移动到/opt/lsf共享目录下
4、解压lsf10.1_lsfinstall_linux_x86_64.tar,但是不要解压lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z
# tar -xvf lsf10.1_lsfinstall_linux_x86_64.tar
其中 install.config 为安装配置文件,设置对应参数
#cd /opt/lsf/lsf10.1_lsfinstall
#vi install.config
LSF_TOP="/opt/lsf/install"
LSF_ADMINS="lsfadmin"
LSF_CLUSTER_NAME="cluster1"
LSF_MASTER_LIST="lsf-master"
LSF_ENTITLEMENT_FILE="/opt/lsf/lsf_std_entitlement.dat"
CONFIGURATION_TEMPLATE ="HIGH_THROUGHPUT "
LSF_TARDIR="/opt/lsf" LSF_ADD_SERVERS="lsf-node1 lsf-node2"
【配置文件参数解释】
LSF_TOP : 设置安装路径。
LSF_ADMINS : 设置管理员账号,当前设置为我自己的账号,但是企业中建议创建一个公用的管理员账号 lsfadmin。
LSF_CLUSTER_NAME : 集群名称。
LSF_MASTER_LIST :master 机器列表,如果有多台机器,建议至少设置两台 master,作为冗余备份。
LSF_TARDIR : 安装文件解压缩路径。( 需要填写“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”所在的目录,否则会报错No valid LSF distribution file(s) (.tar.Z or .tar.gz) is found in "/opt/lsf/tardir".)
CONFIGURATION_TEMPLATE :配置模式,如果是 IC 应用场景,建议设置为 HIGH_THROUGHPUT 高性能模式。
LSF_ADD_SERVERS :添加计算机节点机器,也可以安装后配置。
LSF_ADD_CLIENTS :添加客户机(投递机)节点,也可以安装后配置。
5、安装ed
#yum install ed(如未事先安装,在下一步执行安装配置文件时会报错Cannot find UNIX command " ed".)
6、执行./lsfinstall -f install.config 来安装 lsf
输入1,继续
输入1,继续
在安装完成后会生成一个lsf_quick_admin.html和lsf_getting_started.html网页,会记录LSF集群的一些主要信息以及常用命令和使用方法
7、在lsf-master、lsf-node1、lsf-node2中自动添加环境变量
#echo ". /opt/lsf/install/conf/profile.lsf">>/etc/profile
8、安装完默认集群间通过rsh通信,修改为ssh通信
#echo "LSF_RSH=ssh" >> /opt/lsf/install/conf/lsf.conf
在/opt/lsf/install/conf/目录下
#source profile.lsf
9、运行lsfstartup命令启动集群:
10、通过以下命令检查集群情况
#bsub 命令提交
#bqueues 队列查看
#bhosts 节点查看
#bjobs 作业查看
【问题记录】
lsf-node1和lsf-node2上的iptables未关闭,在/opt/lsf/install/log中查看报错日志:
chanServSocketExt_(). A socket operation has failed on the configured UDP port <7869> on host
在lsf-node1和lsf-node2中关闭iptables,
重新执行lsfstartup