<span id='bk1wn'></span>

      1. <i id='bk1wn'></i>
      2. <tr id='bk1wn'><strong id='bk1wn'></strong><small id='bk1wn'></small><button id='bk1wn'></button><li id='bk1wn'><noscript id='bk1wn'><big id='bk1wn'></big><dt id='bk1wn'></dt></noscript></li></tr><ol id='bk1wn'><table id='bk1wn'><blockquote id='bk1wn'><tbody id='bk1wn'></tbody></blockquote></table></ol><u id='bk1wn'></u><kbd id='bk1wn'><kbd id='bk1wn'></kbd></kbd>
        <fieldset id='bk1wn'></fieldset>
        <dl id='bk1wn'></dl>
        <acronym id='bk1wn'><em id='bk1wn'></em><td id='bk1wn'><div id='bk1wn'></div></td></acronym><address id='bk1wn'><big id='bk1wn'><big id='bk1wn'></big><legend id='bk1wn'></legend></big></address>

          <ins id='bk1wn'></ins>

            <code id='bk1wn'><strong id='bk1wn'></strong></code>

            <i id='bk1wn'><div id='bk1wn'><ins id='bk1wn'></ins></div></i>

            Linux系统上安装slurm来监控网络带宽和控制节点

            • 时间:
            • 浏览:6
            • 来源:124软件资讯网

                SLURM 是一个类似 Sun Grid Engine (SGE) 的开源漫衍式资源治理软件  ,用于超级盘算机和大型盘算节点集群  ,可高度伸缩和容错  。SUN 被卖给 Oracle 后 ,好用的 SGE 酿成 Oracle Grid Engine 而且从 6.2u6 版本最先成为商业软件了(可以免费使用90天) ,以是我们不得不另寻其他的开源替换方案 ,SLURM 是上次在德班高性能集会的时间一位生疏人先容的  ,听上去不错  。

                SLURM 通过一对冗余集群控制节点(冗余是可选的)来治理集群盘算节点  ,是由一个名为 slurmctld 的治理守护法式实现的  ,slurmctld 提供了对盘算资源的监视、分配和治理 ,并将进入的作业序列映射和分发到各个盘算节点上 。每个盘算节点也有一个守护法式 slurmd  ,slurmd 治理在其上运行的节点  ,监视节点上运行的使命、接受来自控制节点的请求和事情、将事情映射到节点内部等等  。图示如下:

                监控带宽

                复制代码

                代码如下:

                $ apt-get install slurm

                它会用字符来显示文本图形 。

                例如:

                复制代码

                代码如下:

                $ slurm -i

                $ slurm -i eth1

                选项

                按 l 显示 lx/tx 指示灯.

                按 c 切换到经典模式.

                按 r 刷新屏幕.

                按 q 退出.

                控制节点

                在控制节点和盘算结点划分安装 slurm 包  ,这个包内里既含有控制节点需要的 slurmctld 也含有盘算结点需要的 slurmd:

                复制代码

                代码如下:

                # apt-get install slurm-llnl

                控制节点和盘算结点之间需要通讯  ,通讯就需要认证  ,slurm 支持两种认证方式:Brent Chun’s 的 authd 和 LLNL 的 MUNGE  ,MUNGE 是专为高性能集群盘算打造的  ,这里我们选用 MUNGE  ,天生 key 后启动 munge 认证服务:

                复制代码

                代码如下:

                # /usr/sbin/create-munge-key

                Generating a pseudo-random key using /dev/urandom completed.

                # /etc/init.d/munge start

                使用 SLURM Version 2.3 Configuration Tool 在线设置工具天生设置文件  ,然后把设置文件拷贝控制节点以及各个盘算结点的 /etc/slurm-llnl/slurm.conf(是的  ,控制节点和盘算结点使用统一个设置文件) 。

                有了设置文件和启动了 munge 服务后就可以在控制节点启动 slurmctld 服务了:

                复制代码

                代码如下:

                # /etc/init.d/slurm-llnl start

                * Starting slurm central management daemon slurmctld [ OK ]

                把控制节点天生的 munge.key 拷贝到各个盘算结点:

                复制代码

                代码如下:

                # scp /etc/munge/munge.key ubuntu@slurm01:/etc/munge/

                上岸盘算节点后启动 munge 服务(注重需要改变 munge.key 的 owner 和 group 为 munge ,否则会启动失败)和 slurmd 服务:

                复制代码

                代码如下:

                # ssh ubuntu@slurm01

                # chown munge:munge munge.key

                # /etc/init.d/munge start

                * Starting MUNGE munged [ OK ]

                # slurmd

                在控制节点上(slurm00)测试一下是否顺遂毗连到盘算结点(slurm01) ,而且简朴运行一个法式 /bin/hostname 看看效果吧:

                复制代码

                代码如下:

                # sinfo

                PARTITION AVAIL TIMELIMIT NODES STATE NODELIST

                debug* up infinite 1 idle slurm01

                # srun -N1 /bin/hostname

                slurm01