1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 看起来您仅使用了31个节点,其余19个节点没有使用。您的工作负载是什么样子的(例如: 运行需要50个节点的作业,运行需要1个节点的50个作业)?ParallelCluster仅为运行队列中的作业所需的实例提供资源,以利用云的弹性并确保您不支付空闲资源的费用。如果您转到CloudWatch,应该会有一个名为/aws/parallelcluster/<StackName>
的CloudWatch日志组,其中StackName是您ParallelCluster堆栈的名称。如果已经分配但失败,则其中应该有每个节点的日志。如果它们在分配之前失败,您需要查看头节点的日志,slurm_resume.log
条目中可能会有有用的信息。在分配之前失败也可能表明出现错误,例如超出实例数量限制(您可以在此处增加限制:https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-limit/)
相关内容
- AWS 官方已更新 3 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 3 年前
- AWS 官方已更新 1 年前