1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 嗨@blakem,
我确认第一个问题是由于头节点缺少GPU。要在其中一个计算节点内进行实验,您可以提交作业,检索节点主机名,然后在作业正在运行时使用SSH连接到该节点:
[ec2-user@ip-10-0-0-33 ~]$ sbatch --wrap "sleep 100"
Submitted batch job 1
[ec2-user@ip-10-0-0-33 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1 queue1 wrap ec2-user R 0:03 1 queue1-dy-queue1-t2medium-1
[ec2-user@ip-10-0-0-33 ~]$ ssh queue1-dy-queue1-t2medium-1
进入计算节点后,您可以尝试手动在其中安装软件包。如果按预期工作,则可以使用 OnNodeConfigured
自定义引导操作自动安装软件包:https://docs.aws.amazon.com/parallelcluster/latest/ug/custom-bootstrap-actions-v3.html
恩里科
相关内容
- AWS 官方已更新 1 年前
- AWS 官方已更新 10 个月前
- AWS 官方已更新 1 年前