如何檢查 SageMaker 筆記本執行個體的資源使用率?
我啟動 Amazon SageMaker 筆記本執行個體來訓練模型,或是載入大型資料集,但筆記本執行個體似乎已凍結。如何檢視我的 SageMaker 執行個體資源使用率?
解決方案
使用 SageMaker 筆記本執行個體資源來製作原型、訓練模型或處理大型資料集時,SageMaker 的瀏覽器或筆記本執行個體可能會顯示沒有回應。當瀏覽器或筆記本執行個體沒有回應時,您可以查看 SageMaker 資源使用率以檢視目前的資源使用情況。
您可以使用下列其中一種方法來檢視 SageMaker 資源使用率:
- 執行以 Linux 為基礎的命令
- 查看 Amazon CloudWatch 指標
使用 Linux 命令檢視 SageMaker 資源使用率
SageMaker 筆記本執行個體是以 Amazon Linux 為基礎。您可以從 SageMaker 終端執行 Linux 命令,以檢視 SageMaker 資源使用率。
若要執行 SageMaker Linux 指令來檢視資源使用率,請執行下列動作:
1.開啟 SageMaker 主控台。
2.在導覽窗格中,選擇 Notebook Instances (筆記本執行個體)。
3.在您選擇的 SageMaker 筆記本執行個體旁邊 Open Jupyter (開啟 Jupyter) 或是 JupyterLab。
4.開啟終端。
5.執行下列命令以檢視您的 SageMaker 資源使用率:
top
上述命令會顯示可用的系統記憶體 (RAM) 和處理器負載。
ps -ax
上述命令會顯示正在執行的任務和處理器負載。
df -h
上述命令會顯示磁碟空間使用率和可用性。
free -m
上述指令會顯示系統記憶體 (RAM) 的使用率和可用性。
使用 CloudWatch 檢視資源使用率
您可以使用生命週期設定指令碼來檢視 SageMaker 資源使用率。例如,publish-instance-metrics 指令碼會將筆記本執行個體中的系統層級指標發佈到 CloudWatch。
若要設定 SageMaker 筆記本執行個體以檢視來自 CloudWatch 的所有指標:
1.開啟 SageMaker 主控台。
2.在導覽窗格中,選擇 Notebook Instances (筆記本執行個體)。
3.在您選擇的 SageMaker 筆記本執行個體旁邊,選擇 Open Jupyter (開啟 Jupyter) 或是 JupyterLab。
4.開啟終端。
5.輸入以下命令以開啟 amazon-cloudwatch-agent-config-wizard:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
6.請遵循精靈中的步驟。出現提示時,請執行以下操作:
- 選擇 On-premises host (內部部署主機)
- 針對 StatSD Daemon (StatSD 常駐程式) 選擇 no (否)
- 針對 CollectD 選擇 no (否)
7.精靈會在完成時自動建立一個 config.json 檔案。此檔案會在下一個步驟中用到。
8.使用下列命令在您的伺服器上啟動 CloudWatch 代理程式:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s
9.在您的 CloudWatch 主控台中,選擇 Metrics (指標),然後選擇 CWAgent。
10.CWAgent 會顯示您目前的 SageMaker 指標。
如需 SageMaker 筆記本的 AWS 生命週期組態指令碼範例詳細資訊,請參閱 amazon-sagemaker-notebook-instance-lifecycle-config-samples。
相關資訊

相關內容
- AWS 官方已更新 3 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 5 個月前
- AWS 官方已更新 8 個月前