如何對無法開啟 Jupyter 的 SageMaker AI 筆記本執行個體問題進行疑難排解?
我想對無法開啟 Jupyter 的 Amazon SageMaker AI 筆記本執行個體問題進行疑難排解。
解決方法
若要對無法開啟 Jupyter 的 SageMaker AI 筆記本執行個體問題進行疑難排解,請執行下列動作:
- 在 SageMaker AI 主控台上,確認筆記本執行個體狀態為 InService。如果狀態為擱置中,則筆記本執行個體尚未準備就緒。
- 請清除瀏覽器快取。或者,使用其他瀏覽器存取 Jupyter 筆記本。
- 無需瀏覽器擴充功能即可存取 Jupyter 筆記本。Proxy 組態可能會導致您的 Jupyter 筆記本無法開啟。
- 切換到其他網路環境。如果您之前是從組織的網路開啟 Jupyter,請嘗試改用您的家庭網路開啟。
- 請檢查是否有防火牆禁止存取。本機上的 Proxy 或防毒軟體可能會禁止 WebSocket 連線。
- 請檢查瀏覽器的網路日誌是否有任何 WebSocket 連線錯誤。若要查看日誌,請使用瀏覽器開發者模式。
- 檢查 Jupyter 日誌,查看是否有錯誤。
如果仍然無法開啟 Jupyter 筆記本,請重新啟動筆記本執行個體。此動作會導致 SageMaker AI 筆記型電腦執行個體取代基礎 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體。最佳做法是定期重新啟動筆記本執行個體,以保持軟體更新。此外,將筆記本執行個體轉換到新主機可能有助於解決 HTTP 503 和 504 瀏覽器錯誤。
注意:****/home/ec2-user/SageMaker 檔案系統是筆記本執行個體上唯一的永續性儲存體。重新啟動執行個體後,您會遺失所有其他資料。
若要重新啟動 SageMaker AI 筆記本執行個體,請完成下列步驟:
- 開啟 SageMaker AI console (SageMaker AI 主控台)。
- 在導覽窗格中,選擇 Notebook instances (筆記本執行個體)。
- 選擇要重新啟動的筆記本執行個體。
- 在 Actions (動作)下拉式清單中,選擇 Stop (停止)。
- 當筆記本執行個體達到已停止狀態後,請在 Actions (動作) 下拉式清單中選擇 Start (開始)。
- 開啟筆記本執行個體 URL。
對筆記本執行個體超載問題進行疑難排解
請執行下列動作來解決筆記本執行個體超載的問題。
開啟的工作階段過多
如果您有過多作用中工作階段和筆記本,那麼筆記本將需要更長時間才能載入,而且可能會在瀏覽器中逾時。若要查看開啟的工作階段,請檢查 Jupyter 儀表板上的 Running (正在執行) 索引標籤。然後,關閉不必要的筆記本或開啟終端工作階段。
高 CPU 或記憶體使用率
若要檢查 CPU 或記憶體使用率,請完成下列步驟:
-
開啟 Jupyter 儀表板,然後選擇 Files (檔案) 索引標籤。
-
選擇 New (新增),然後選擇 Terminal (終端)。
-
檢查您的記憶體使用率:
$ free -h -
檢查您的 CPU 使用率:
$ top
如果您的 CPU 或記憶體使用率很高,而您無法釋放更多資源,請完成以下步驟以切換到更大的筆記本執行個體:
- 停止筆記本執行個體。
- 選擇 Actions (動作) 下拉式清單,然後選擇 Update settings (更新設定)。
- 選擇新的筆記本執行個體類型,然後選擇 Save (儲存)。
**注意:**如需每個 AWS 區域中可用執行個體類型的清單,請參閱 Amazon SageMaker AI 定價。 - 在 Actions (動作) 下拉式清單中,選擇 Start (開始)。
- 開啟筆記本執行個體 URL。
磁碟使用率高
若要檢查磁碟使用率,請完成下列步驟:
-
開啟 Jupyter 儀表板,然後選擇 Files (檔案) 索引標籤。
-
選擇 New (新增),然後選擇 Terminal (終端)。
-
啟動 SSH 工作階段,然後檢查磁碟使用率:
$ df -h -
檢查檔案系統 /home/ec2-user/SageMaker 的磁碟使用率。
如果磁碟使用率很高,請從 /home/ec2-user/SageMaker 目錄中移除暫存檔案。
或者,完成以下步驟來增加 Amazon Elastic Block Store (Amazon EBS) 磁碟區大小:
- 停止筆記本執行個體。
- 在 Actions (動作) 下拉式清單中,選擇 Update settings (更新設定)。
- 輸入新的磁碟區大小,然後選擇 Save (儲存)。
**注意:**預設的 Amazon EBS 磁碟區大小為 5 GB。您可以將磁碟區大小增加到 16 TB。 - 在 Actions (動作) 下拉式清單中,選擇 Start (開始)。
- 開啟筆記本執行個體 URL。
您在附加生命週期指令碼後收到錯誤訊息
以下情況可能會導致生命週期指令碼問題。
生命週期指令碼執行時間超過 5 分鐘
在生命週期組態指令碼執行之前,筆記本等待長達 5 分鐘。如果您在啟動筆記本時安裝套件,則安裝程序可能需要超過 5 分鐘。若要解決此問題,請執行 nohup 命令,以允許生命週期指令碼在背景執行。
命令範例:
=== #!/bin/bash set -e nohup pip install xgboost & =====
**注意:**當您安裝程式庫時,指令碼會停止執行。若要檢查指令碼是否仍在執行,請執行 ps 命令。
生命週期指令碼失敗,錯誤代碼為 127
當您在 Windows 中編輯指令碼,並編輯額外的 Windows 行尾 (CRLF) 時,就會發生此錯誤。當您在 Windows 中建立指令碼,然後將指令碼複製到 Unix 環境時,也會發生此錯誤。Windows 和 Unix 系統使用不同的符號來表示換行字元。若要解決此問題,請將文字編輯器設定為以 Unix 格式建立檔案。
例如,在 Notepad ++ 中,您可以在畫面右下角找到文件格式。預設情況下,格式設定為 Dos\Windows。您可以在 Notepad++ 設定中將格式變更為 Unix。或者,從 Edit (編輯) 功能表將 EOL 字元轉換為 Unix 格式。
- 語言
- 中文 (繁體)

相關內容
- 已提問 1 年前
- 已提問 1 年前
- 已提問 2 年前
