AWS ParallelCluster:多个集群的Slurmdbd

0

【以下的问题经过翻译处理】 我正在尝试为使用AWS ParallelCluster 3创建的多个集群启用slurm计费,按照此指南。我已成功为第一个集群(cluster-one)启用了计费,现在我正在尝试按上述页面中“在多个集群上复制该过程”的推荐方式设置第二个(cluster-two),即使用单个slurmdbd实例。

然而,从cluster-twocluster-oneslurmdbd连接无法正常工作。这是来自cluster-one上的slurmdbd.log文件:

[2022-05-22T15:09:02.965] error: Munge decode failed: Invalid credential
[2022-05-22T15:09:02.966] auth/munge: _print_cred: ENCODED: Thu Jan 01 00:00:00 1970
[2022-05-22T15:09:02.966] auth/munge: _print_cred: DECODED: Thu Jan 01 00:00:00 1970
[2022-05-22T15:09:02.966] error: slurm_unpack_received_msg: auth_g_verify: REQUEST_PERSIST_INIT has authentication error: Unspecified error
[2022-05-22T15:09:02.966] error: slurm_unpack_received_msg: Protocol authentication error
[2022-05-22T15:09:02.976] error: CONN:10 Failed to unpack SLURM_PERSIST_INIT message

这是cluster-two上的slurmctld.log

[2022-05-09T21:39:36.773] error: slurmdbd: Invalid message version=6500, type:1432
[2022-05-09T21:39:37.250] error: auth_g_pack: protocol_version 6500 not supported
[2022-05-09T21:39:37.250] error: slurm
profile picture
EXPERTE
gefragt vor 5 Monaten7 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 在一个 Slurm 集群联盟中启用通信,你需要使用相同的 Munge 密钥。

对于每个新的集群,ParallelCluster 会生成一个随机密钥供 Munge 使用,因此你需要在两个集群中使用相同的密钥。 你可以从第一个集群中获取密钥,它位于 /etc/munge/munge.key 文件中,然后以正确的权限在另一个集群中复制它。

复制 Munge 密钥后,你需要重启 head 节点中的守护进程(包括 munged 和 slurmctld)。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen