【以下的问题经过翻译处理】 你好,
我注意到我的集群中的节点往往会超负荷运行更多的torque作业,超过了可用CPU的数量。我怀疑这可能与torque配置有关(或者可能超线程不生效?)
我正在使用带有自定义AMI和每个节点最大8个处理器(不带超线程的c5.4xlarge)的parallelcluster 2.10。
我要分析的节点是 ip-172-31-68-184。
这是该节点的qnodes输出,应该允许np = 8个CPU:
[code]
$ qnodes
...
ip-172-31-68-184
state = free
power_state = Running
np = 8
ntype = cluster
jobs = 0/218.ip-172-31-24-41.eu-central-1.compute.internal,1/219.ip-172-31-24-41.eu-central-1.compute.internal,2/220.ip-172-31-24-41.eu-central-1.compute.internal,3/221.ip-172-31-24-41.eu-central-1.compute.internal,4/518.ip-172-31-24-41.eu-central-1.compute.internal
status = opsys=linux,uname=Linux ip-172-31-68-184 4.18.0-193.28.1.el8_2.x86_64 #1 SMP Thu Oct 22 00:20:22 UTC 2020 x86_64,sessions=1182 1306 5674 6030 6039 6046 6062 112846,nsessions=8,nusers=4,idletime=166759,totmem=31720500kb,availmem=29305472kb,physmem=31720500kb,ncpus=8,loadave=18.33,gres=,netload=47638299866,state=free,varattr= ,cpuclock=Fixed,macaddr=02:5a:f2:25:37:ba,version=6.1.2,rectime=1612984963,jobs=218.ip-172-31-24-41.eu-central-1.compute.internal 219.ip-172-31-24-41.eu-central-1.compute.internal 220.ip-172-31-24-41.eu-central-1.compute.internal 221.ip-172-31-24-41.eu-central-1.compute.internal 518.ip-172-31-24-41.eu-central-1.compute.internal
mom_service_port = 15002
mom_manager_port = 15003
[/code]
, whereas the qstat output for this node:
[code]
Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time
218.ip-172-31-24-41.eu flacscloud batch 000038 6030 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/0
219.ip-172-31-24-41.eu flacscloud batch 000039 6039 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/1
220.ip-172-31-24-41.eu flacscloud batch 000056 6046 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/2
221.ip-172-31-24-41.eu flacscloud batch 000060 6062 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/3
518.ip-172-31-24-41.eu flacscloud batch 012310 112846 -- 2 -- 48:00:00 R 23:16:18
ip-172-31-68-184/4
[/code]
很明显,正在运行的作业的 TSK 总和大于 CPU 数量。在该节点上运行 top 命令可以确认这一观察结果,该节点已经超载。为什么会发生这种情况,我该如何修复这种行为?