当任务数量超过处理器数量时,Parallelcluster torque节点超载。

0

【以下的问题经过翻译处理】 你好,

我注意到我的集群中的节点往往会超负荷运行更多的torque作业,超过了可用CPU的数量。我怀疑这可能与torque配置有关(或者可能超线程不生效?)

我正在使用带有自定义AMI和每个节点最大8个处理器(不带超线程的c5.4xlarge)的parallelcluster 2.10。

我要分析的节点是 ip-172-31-68-184

这是该节点的qnodes输出,应该允许np = 8个CPU: [code] $ qnodes ... ip-172-31-68-184 state = free power_state = Running np = 8 ntype = cluster jobs = 0/218.ip-172-31-24-41.eu-central-1.compute.internal,1/219.ip-172-31-24-41.eu-central-1.compute.internal,2/220.ip-172-31-24-41.eu-central-1.compute.internal,3/221.ip-172-31-24-41.eu-central-1.compute.internal,4/518.ip-172-31-24-41.eu-central-1.compute.internal status = opsys=linux,uname=Linux ip-172-31-68-184 4.18.0-193.28.1.el8_2.x86_64 #1 SMP Thu Oct 22 00:20:22 UTC 2020 x86_64,sessions=1182 1306 5674 6030 6039 6046 6062 112846,nsessions=8,nusers=4,idletime=166759,totmem=31720500kb,availmem=29305472kb,physmem=31720500kb,ncpus=8,loadave=18.33,gres=,netload=47638299866,state=free,varattr= ,cpuclock=Fixed,macaddr=02:5a:f2:25:37:ba,version=6.1.2,rectime=1612984963,jobs=218.ip-172-31-24-41.eu-central-1.compute.internal 219.ip-172-31-24-41.eu-central-1.compute.internal 220.ip-172-31-24-41.eu-central-1.compute.internal 221.ip-172-31-24-41.eu-central-1.compute.internal 518.ip-172-31-24-41.eu-central-1.compute.internal mom_service_port = 15002 mom_manager_port = 15003 [/code] , whereas the qstat output for this node: [code] Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time 218.ip-172-31-24-41.eu flacscloud batch 000038 6030 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/0 219.ip-172-31-24-41.eu flacscloud batch 000039 6039 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/1 220.ip-172-31-24-41.eu flacscloud batch 000056 6046 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/2 221.ip-172-31-24-41.eu flacscloud batch 000060 6062 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/3 518.ip-172-31-24-41.eu flacscloud batch 012310 112846 -- 2 -- 48:00:00 R 23:16:18 ip-172-31-68-184/4 [/code] 很明显,正在运行的作业的 TSK 总和大于 CPU 数量。在该节点上运行 top 命令可以确认这一观察结果,该节点已经超载。为什么会发生这种情况,我该如何修复这种行为?

profile picture
专家
已提问 5 个月前15 查看次数
1 回答
0

【以下的回答经过翻译处理】 嗨@mfolusiak,

感谢您提供的信息。根据您的submit_args,任务提交命令使用“-l ncpus=2”来指定vCPU数量,如果您将资源参数替换为“-l nodes=1:ppn=2”,该资源参数将解决负载过载问题,并根据实例vCPU容量将作业分配给不同的实例。

nodes-指定应分配的独立节点数

ppn-为每个节点分配多少个进程

~Yulei

编辑:yulei-AWS于2021年2月12日下午4:02

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则