為什麼我的 Amazon SageMaker 筆記本執行個體停留在擱置中狀態,隨後執行失敗?

1 分的閱讀內容
0

當我建立或啟動 Amazon SageMaker 筆記本執行個體時,執行個體進入擱置中狀態。筆記本執行個體似乎停留在此狀態,隨後執行失敗。

簡短說明

擱置中狀態表示 SageMaker 正在建立筆記本執行個體。如果建立程序中的任何步驟失敗,SageMaker 會嘗試再次建立筆記本。這就是筆記本可能會停留在擱置中狀態比預期更久的原因。如果 SageMaker 仍無法建立筆記本執行個體,狀態最終會變更為失敗

解決方法

確認失敗原因

檢查 DescribeNotebookInstance API 中的 FailureReason 回應。您也可以在 SageMaker 主控台中找到失敗原因:

  • 若要查看顯示失敗原因縮短版本的快顯視窗,請在狀態一欄中的失敗上暫停。
  • 若要查看完整的失敗原因,請選擇筆記本執行個體的名稱。失敗原因會顯示在筆記本執行個體設定區段的頂端。

使用失敗原因對根本原因進行疑難排解。

常見錯誤

"fatal: unable to access 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': (致命錯誤:無法存取 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/':) Failed to connect to github.com port 443: (無法連線至 github.com 連接埠 443:) Connection timed out" (連線逾時)

當筆記本執行個體的網路組態不支援外部 Git 儲存庫的網域名稱或連線時,就會發生此錯誤。

**重要事項:**在虛擬私有雲端 (VPC) 中部署的筆記本執行個體不會自動繼承自訂路由表,例如 VPC 對等互連的子網路路由表。如果您需要自訂路由表,請建立生命週期組態指令碼,以便在啟動時新增路由。如需詳細資訊,請參閱了解 Amazon SageMaker 筆記本執行個體聯網組態和進階路由選項

若要驗證 Git 連線正在作用中且您可以從筆記本執行個體連線至儲存庫: 建立沒有關聯 Git 儲存庫的新筆記本執行個體。然後,開啟 Jupyter 主控台,並使用終端工作階段執行下列命令:

1.FSP 解析伺服器的主機名稱:

dig repo_hostname

如果輸出的答案區段空白,則筆記本無法解析主機名稱。例如,github.com 的答案區段會顯示為:

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.FSP 如果輸出的答案區段包含回應,則可順利解析網域名稱。然後,您可以執行下列命令來測試與主機名稱的連線:

curl -v your-git-repo-url:443

3.FSP 如果連線遭拒或逾時,請驗證 VPC 安全群組規則路由表。如果連線成功,請使用 git 命令測試您的憑證:

git pull https://your-git-repo-url

"Lifecycle Configuration failed" (生命週期組態失敗)

如果生命週期組態指令碼執行時間超過五分鐘,就會執行失敗,而且既不會建立也不會啟動筆記本執行個體。如需有關如何縮減指令碼執行期的建議,請參閱使用生命週期組態指令碼自訂筆記本執行個體。若要針對指令碼相關問題進行疑難排解,請檢查 Amazon CloudWatch 日誌中的生命週期組態:

  • 日誌群組:/aws/sagemaker/NotebookInstances
  • 日誌串流:notebook-instance-name/LifecycleConfigOnStartnotebook-instance-name/LifecycleConfigOnCreate

"This Notebook Instance type 'ml.m4.xlarge' is temporarily unavailable. (此筆記本執行個體類型 'ml.m4.xlarge' 暫時無法使用。)We apologize for the inconvenience. (造成不便,敬請見諒。)Please try again in a few minutes, or try a different instance type." (請稍候片刻再試一次,或嘗試其他執行個體類型。)

當 Amazon Elastic Compute Cloud (Amazon EC2) 沒有足夠的可用容量供您選取的執行個體類型使用時,就會發生此錯誤。容量會根據當時該區域中該執行個體類型的需求而有所不同。請稍後再次嘗試要求,看看容量層級是否已變更。或者,選擇其他執行個體類型。

HTTP 500 內部錯誤

HTTP 500 錯誤表示建立筆記本執行個體時發生未預期的錯誤。若要排除暫時性問題,請嘗試再次建立筆記本執行個體。


相關資訊

將 Git 儲存庫與 SageMaker 筆記本執行個體建立關聯

常見錯誤

AWS 官方
AWS 官方已更新 1 年前