LSF安装部署

前言

目前,市面上主流的HPC调度器分为LSF、SGE、Slurm、SGE四大类型,不同行业根据自身场景和不同调度器对应用支持力度的不同,往往会有不同的偏好,在芯片设计公司中最常用的是LSF

LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。 

下文将简单介绍在实验环境中安装部署LSF的过程,仅供参考

一、准备工作

1、准备四台虚拟机,并部署好centos7.6

主机名 IP地址 角色
lsf-master 192.168.0.81 管理节点&计算节点
lsf-node1 192.168.0.82 计算节点
lsf-node2 192.168.0.83 计算节点
nfs 192.168.0.84 共享存储

2、配置主机名和名称解析

#hostnamectl set-hostname lsf-master

#hostnamectl set-hostname lsf-node1

#hostnamectl set-hostname lsf-node2

#hostnamectl set-hostname nfs

LSF安装部署_第1张图片

3、关闭selinux,firewalled

#sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config

#systemctl stop firewalld

#systemctl disable firewalld

4、创建用户

#useradd -m lsfadmin

5、设置免密登录

#ssh-keygen

#ssh-copy-id [email protected]

#ssh-copy-id [email protected]

#ssh-copy-id [email protected]

LSF安装部署_第2张图片

LSF安装部署_第3张图片

6、nfs共享存储搭建(略)

7、挂载共享存储

#mkdir -p /opt/lsf

#vi /etc/exports

#exportfs -r

#systemctl stop iptables(如已关闭iptables则不需要执行)

#mkdir -p /opt/lsf

#echo "nfs:/opt/lsf /opt/lsf nfs defaults 0 0">>/etc/fstab

#mount -a

二、安装LSF

1、上传LSF安装包到lsf-master节点

2、设置安装目录(建议设置为空的安装目录,否则目录中的文件会被覆盖掉)

#mkdir /opt/lsf/install

3、将“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”“lsf_std_entitlement.dat”移动到/opt/lsf共享目录下

4、解压lsf10.1_lsfinstall_linux_x86_64.tar,但是不要解压lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z

 # tar -xvf lsf10.1_lsfinstall_linux_x86_64.tar

LSF安装部署_第4张图片

其中 install.config 为安装配置文件,设置对应参数

#cd /opt/lsf/lsf10.1_lsfinstall

#vi install.config

LSF_TOP="/opt/lsf/install"

LSF_ADMINS="lsfadmin"

LSF_CLUSTER_NAME="cluster1"

LSF_MASTER_LIST="lsf-master"

LSF_ENTITLEMENT_FILE="/opt/lsf/lsf_std_entitlement.dat"

CONFIGURATION_TEMPLATE ="HIGH_THROUGHPUT "

LSF_TARDIR="/opt/lsf" LSF_ADD_SERVERS="lsf-node1 lsf-node2"

【配置文件参数解释】

LSF_TOP : 设置安装路径。

LSF_ADMINS : 设置管理员账号,当前设置为我自己的账号,但是企业中建议创建一个公用的管理员账号 lsfadmin。

LSF_CLUSTER_NAME : 集群名称。

LSF_MASTER_LIST :master 机器列表,如果有多台机器,建议至少设置两台 master,作为冗余备份。

LSF_TARDIR : 安装文件解压缩路径。( 需要填写“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”所在的目录,否则会报错No valid LSF distribution file(s) (.tar.Z or .tar.gz) is found in "/opt/lsf/tardir".)

CONFIGURATION_TEMPLATE :配置模式,如果是 IC 应用场景,建议设置为 HIGH_THROUGHPUT 高性能模式。

LSF_ADD_SERVERS :添加计算机节点机器,也可以安装后配置。

LSF_ADD_CLIENTS :添加客户机(投递机)节点,也可以安装后配置。

5、安装ed

#yum install ed(如未事先安装,在下一步执行安装配置文件时会报错Cannot find UNIX command " ed".)

LSF安装部署_第5张图片

6、执行./lsfinstall -f install.config 来安装 lsf

LSF安装部署_第6张图片

 输入1,继续

LSF安装部署_第7张图片

输入1,继续

LSF安装部署_第8张图片

在安装完成后会生成一个lsf_quick_admin.html和lsf_getting_started.html网页,会记录LSF集群的一些主要信息以及常用命令和使用方法

7、在lsf-master、lsf-node1、lsf-node2中自动添加环境变量

#echo ". /opt/lsf/install/conf/profile.lsf">>/etc/profile

8、安装完默认集群间通过rsh通信,修改为ssh通信

#echo "LSF_RSH=ssh" >> /opt/lsf/install/conf/lsf.conf

在/opt/lsf/install/conf/目录下

#source profile.lsf

9、运行lsfstartup命令启动集群:

LSF安装部署_第9张图片

 10、通过以下命令检查集群情况

#bsub             命令提交
#bqueues        队列查看
#bhosts          节点查看
#bjobs            作业查看

【问题记录】

lsf-node1和lsf-node2上的iptables未关闭,在/opt/lsf/install/log中查看报错日志:

chanServSocketExt_(). A socket operation has failed on the configured UDP port <7869> on host . Reason:

. Fatal error. Either change the port number in lsf.conf (LSF_LIM_PORT) or terminate the other process that is bound to the port.

LSF安装部署_第10张图片

LSF安装部署_第11张图片

 在lsf-node1和lsf-node2中关闭iptables,

LSF安装部署_第12张图片

 重新执行lsfstartup

LSF安装部署_第13张图片

你可能感兴趣的:(linux,运维,centos,云计算)