如何檢查 SageMaker 筆記本執行個體的資源使用率?

2 分的閱讀內容
0

我啟動 Amazon SageMaker 筆記本執行個體來訓練模型,或是載入大型資料集,但筆記本執行個體似乎已凍結。如何檢視我的 SageMaker 執行個體資源使用率?

解決方案

使用 SageMaker 筆記本執行個體資源來製作原型、訓練模型或處理大型資料集時,SageMaker 的瀏覽器或筆記本執行個體可能會顯示沒有回應。當瀏覽器或筆記本執行個體沒有回應時,您可以查看 SageMaker 資源使用率以檢視目前的資源使用情況。

您可以使用下列其中一種方法來檢視 SageMaker 資源使用率:

  • 執行以 Linux 為基礎的命令
  • 查看 Amazon CloudWatch 指標

使用 Linux 命令檢視 SageMaker 資源使用率

SageMaker 筆記本執行個體是以 Amazon Linux 為基礎。您可以從 SageMaker 終端執行 Linux 命令,以檢視 SageMaker 資源使用率。

若要執行 SageMaker Linux 指令來檢視資源使用率,請執行下列動作:

1.開啟 SageMaker 主控台

2.在導覽窗格中,選擇 Notebook Instances (筆記本執行個體)。

3.在您選擇的 SageMaker 筆記本執行個體旁邊 Open Jupyter (開啟 Jupyter) 或是 JupyterLab

4.開啟終端。

5.執行下列命令以檢視您的 SageMaker 資源使用率:

top

上述命令會顯示可用的系統記憶體 (RAM) 和處理器負載。

ps -ax

上述命令會顯示正在執行的任務和處理器負載。

df -h

上述命令會顯示磁碟空間使用率和可用性。

free -m

上述指令會顯示系統記憶體 (RAM) 的使用率和可用性。

使用 CloudWatch 檢視資源使用率

您可以使用生命週期設定指令碼來檢視 SageMaker 資源使用率。例如,publish-instance-metrics 指令碼會將筆記本執行個體中的系統層級指標發佈到 CloudWatch。

若要設定 SageMaker 筆記本執行個體以檢視來自 CloudWatch 的所有指標:

1.開啟 SageMaker 主控台

2.在導覽窗格中,選擇 Notebook Instances (筆記本執行個體)。

3.在您選擇的 SageMaker 筆記本執行個體旁邊,選擇 Open Jupyter (開啟 Jupyter) 或是 JupyterLab

4.開啟終端。

5.輸入以下命令以開啟 amazon-cloudwatch-agent-config-wizard

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard

6.請遵循精靈中的步驟。出現提示時,請執行以下操作:

  • 選擇 On-premises host (內部部署主機)
  • 針對 StatSD Daemon (StatSD 常駐程式) 選擇 no (否)
  • 針對 CollectD 選擇 no (否)

7.精靈會在完成時自動建立一個 config.json 檔案。此檔案會在下一個步驟中用到。

8.使用下列命令在您的伺服器上啟動 CloudWatch 代理程式:

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s

9.在您的 CloudWatch 主控台中,選擇 Metrics (指標),然後選擇 CWAgent

10.CWAgent 會顯示您目前的 SageMaker 指標。

如需 SageMaker 筆記本的 AWS 生命週期組態指令碼範例詳細資訊,請參閱 amazon-sagemaker-notebook-instance-lifecycle-config-samples


相關資訊

使用 Amazon CloudWatch 監控 Amazon SageMaker

由 CloudWatch 代理程式收集的指標

監控 Amazon SageMaker

終端 - 終端的 Jupyter 專案文件

AWS 官方
AWS 官方已更新 1 年前
沒有評論