AWS ParallelCluster:多个集群的Slurmdbd

0

【以下的问题经过翻译处理】 我正在尝试为使用AWS ParallelCluster 3创建的多个集群启用slurm计费,按照此指南。我已成功为第一个集群(cluster-one)启用了计费,现在我正在尝试按上述页面中“在多个集群上复制该过程”的推荐方式设置第二个(cluster-two),即使用单个slurmdbd实例。

然而,从cluster-twocluster-oneslurmdbd连接无法正常工作。这是来自cluster-one上的slurmdbd.log文件:

[2022-05-22T15:09:02.965] error: Munge decode failed: Invalid credential
[2022-05-22T15:09:02.966] auth/munge: _print_cred: ENCODED: Thu Jan 01 00:00:00 1970
[2022-05-22T15:09:02.966] auth/munge: _print_cred: DECODED: Thu Jan 01 00:00:00 1970
[2022-05-22T15:09:02.966] error: slurm_unpack_received_msg: auth_g_verify: REQUEST_PERSIST_INIT has authentication error: Unspecified error
[2022-05-22T15:09:02.966] error: slurm_unpack_received_msg: Protocol authentication error
[2022-05-22T15:09:02.976] error: CONN:10 Failed to unpack SLURM_PERSIST_INIT message

这是cluster-two上的slurmctld.log

[2022-05-09T21:39:36.773] error: slurmdbd: Invalid message version=6500, type:1432
[2022-05-09T21:39:37.250] error: auth_g_pack: protocol_version 6500 not supported
[2022-05-09T21:39:37.250] error: slurm
profile picture
专家
已提问 5 个月前10 查看次数
1 回答
0

【以下的回答经过翻译处理】 在一个 Slurm 集群联盟中启用通信,你需要使用相同的 Munge 密钥。

对于每个新的集群,ParallelCluster 会生成一个随机密钥供 Munge 使用,因此你需要在两个集群中使用相同的密钥。 你可以从第一个集群中获取密钥,它位于 /etc/munge/munge.key 文件中,然后以正确的权限在另一个集群中复制它。

复制 Munge 密钥后,你需要重启 head 节点中的守护进程(包括 munged 和 slurmctld)。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则