ParallelCluster 节点故障

0

【以下的问题经过翻译处理】 当使用带有 c6g-medium 按需机器的分区运行并行集群时,其中 19 个在运行期间失败并且再也没有启动。

我的信息返回:

分区可用时间限制节点状态节点列表
c6gm-ondemand up infinite 19 idle% c6gm-ondemand-dy-c6gmedium-[32-50]
c6gm-ondemand up infinite 31 alloc c6gm-ondemand-dy-c6gmedium-[1-31]

虽然 sacct 包含以下条目:

12033 2022_6_39+ c6gm-onde+ 1 NODE_FAIL 0:0
12034 2022_6_40+ c6gm-onde+ 1 NODE_FAIL 0:0
12037 2022_6_43+ c6gm-onde+ 1 NODE_FAIL 0:0
12039 2022_6_45+ c6gm-onde+ 1 NODE_FAIL 0:0
12040 2022_6_46+ c6gm-onde+ 1 NODE_FAIL 0:0

有谁知道我如何找出导致这些节点失败并且再也无法启动的原因?其他 31 个按需节点一直在运行与 19 个故障节点类似的任务,没有出现问题。另外,有没有办法以某种方式重新启动19个失败的节点?我真的很想并行运行 50 个节点,而不是 31 个。

编辑:我的 squeue 包含数百个要在该分区的节点上运行的“PENDING”作业,所以我有点困惑为什么“idle%”节点没有再次启动。

profile picture
专家
已提问 5 个月前21 查看次数
1 回答
0

【以下的回答经过翻译处理】 看起来您仅使用了31个节点,其余19个节点没有使用。您的工作负载是什么样子的(例如: 运行需要50个节点的作业,运行需要1个节点的50个作业)?ParallelCluster仅为运行队列中的作业所需的实例提供资源,以利用云的弹性并确保您不支付空闲资源的费用。如果您转到CloudWatch,应该会有一个名为/aws/parallelcluster/<StackName>的CloudWatch日志组,其中StackName是您ParallelCluster堆栈的名称。如果已经分配但失败,则其中应该有每个节点的日志。如果它们在分配之前失败,您需要查看头节点的日志,slurm_resume.log条目中可能会有有用的信息。在分配之前失败也可能表明出现错误,例如超出实例数量限制(您可以在此处增加限制:https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-limit/)

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则