跳至內容

如何對無法開啟 Jupyter 的 SageMaker AI 筆記本執行個體問題進行疑難排解?

2 分的閱讀內容
0

我想對無法開啟 Jupyter 的 Amazon SageMaker AI 筆記本執行個體問題進行疑難排解。

解決方法

若要對無法開啟 Jupyter 的 SageMaker AI 筆記本執行個體問題進行疑難排解,請執行下列動作:

  • SageMaker AI 主控台上,確認筆記本執行個體狀態為 InService。如果狀態為擱置中,則筆記本執行個體尚未準備就緒。
  • 請清除瀏覽器快取。或者,使用其他瀏覽器存取 Jupyter 筆記本。
  • 無需瀏覽器擴充功能即可存取 Jupyter 筆記本。Proxy 組態可能會導致您的 Jupyter 筆記本無法開啟。
  • 切換到其他網路環境。如果您之前是從組織的網路開啟 Jupyter,請嘗試改用您的家庭網路開啟。
  • 請檢查是否有防火牆禁止存取。本機上的 Proxy 或防毒軟體可能會禁止 WebSocket 連線。
  • 請檢查瀏覽器的網路日誌是否有任何 WebSocket 連線錯誤。若要查看日誌,請使用瀏覽器開發者模式。
  • 檢查 Jupyter 日誌,查看是否有錯誤。

如果仍然無法開啟 Jupyter 筆記本,請重新啟動筆記本執行個體。此動作會導致 SageMaker AI 筆記型電腦執行個體取代基礎 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體。最佳做法是定期重新啟動筆記本執行個體,以保持軟體更新。此外,將筆記本執行個體轉換到新主機可能有助於解決 HTTP 503 和 504 瀏覽器錯誤。

注意:****/home/ec2-user/SageMaker 檔案系統是筆記本執行個體上唯一的永續性儲存體。重新啟動執行個體後,您會遺失所有其他資料。

若要重新啟動 SageMaker AI 筆記本執行個體,請完成下列步驟:

  1. 開啟 SageMaker AI console (SageMaker AI 主控台)。
  2. 在導覽窗格中,選擇 Notebook instances (筆記本執行個體)。
  3. 選擇要重新啟動的筆記本執行個體。
  4. Actions (動作)下拉式清單中,選擇 Stop (停止)。
  5. 當筆記本執行個體達到已停止狀態後,請在 Actions (動作) 下拉式清單中選擇 Start (開始)。
  6. 開啟筆記本執行個體 URL。

對筆記本執行個體超載問題進行疑難排解

請執行下列動作來解決筆記本執行個體超載的問題。

開啟的工作階段過多

如果您有過多作用中工作階段和筆記本,那麼筆記本將需要更長時間才能載入,而且可能會在瀏覽器中逾時。若要查看開啟的工作階段,請檢查 Jupyter 儀表板上的 Running (正在執行) 索引標籤。然後,關閉不必要的筆記本或開啟終端工作階段。

高 CPU 或記憶體使用率

若要檢查 CPU 或記憶體使用率,請完成下列步驟:

  1. 開啟 Jupyter 儀表板,然後選擇 Files (檔案) 索引標籤。

  2. 選擇 New (新增),然後選擇 Terminal (終端)。

  3. 檢查您的記憶體使用率:

    $ free -h
  4. 檢查您的 CPU 使用率:

    $ top

如果您的 CPU 或記憶體使用率很高,而您無法釋放更多資源,請完成以下步驟以切換到更大的筆記本執行個體:

  1. 停止筆記本執行個體
  2. 選擇 Actions (動作) 下拉式清單,然後選擇 Update settings (更新設定)。
  3. 選擇新的筆記本執行個體類型,然後選擇 Save (儲存)。
    **注意:**如需每個 AWS 區域中可用執行個體類型的清單,請參閱 Amazon SageMaker AI 定價
  4. Actions (動作) 下拉式清單中,選擇 Start (開始)。
  5. 開啟筆記本執行個體 URL。

磁碟使用率高

若要檢查磁碟使用率,請完成下列步驟:

  1. 開啟 Jupyter 儀表板,然後選擇 Files (檔案) 索引標籤。

  2. 選擇 New (新增),然後選擇 Terminal (終端)。

  3. 啟動 SSH 工作階段,然後檢查磁碟使用率:

    $ df -h
  4. 檢查檔案系統 /home/ec2-user/SageMaker 的磁碟使用率。

如果磁碟使用率很高,請從 /home/ec2-user/SageMaker 目錄中移除暫存檔案。

或者,完成以下步驟來增加 Amazon Elastic Block Store (Amazon EBS) 磁碟區大小:

  1. 停止筆記本執行個體
  2. Actions (動作) 下拉式清單中,選擇 Update settings (更新設定)。
  3. 輸入新的磁碟區大小,然後選擇 Save (儲存)。
    **注意:**預設的 Amazon EBS 磁碟區大小為 5 GB。您可以將磁碟區大小增加到 16 TB。
  4. Actions (動作) 下拉式清單中,選擇 Start (開始)。
  5. 開啟筆記本執行個體 URL。

您在附加生命週期指令碼後收到錯誤訊息

以下情況可能會導致生命週期指令碼問題。

生命週期指令碼執行時間超過 5 分鐘

在生命週期組態指令碼執行之前,筆記本等待長達 5 分鐘。如果您在啟動筆記本時安裝套件,則安裝程序可能需要超過 5 分鐘。若要解決此問題,請執行 nohup 命令,以允許生命週期指令碼在背景執行。

命令範例:

===
#!/bin/bash
set -e
nohup pip install xgboost &
=====

**注意:**當您安裝程式庫時,指令碼會停止執行。若要檢查指令碼是否仍在執行,請執行 ps 命令。

生命週期指令碼失敗,錯誤代碼為 127

當您在 Windows 中編輯指令碼,並編輯額外的 Windows 行尾 (CRLF) 時,就會發生此錯誤。當您在 Windows 中建立指令碼,然後將指令碼複製到 Unix 環境時,也會發生此錯誤。Windows 和 Unix 系統使用不同的符號來表示換行字元。若要解決此問題,請將文字編輯器設定為以 Unix 格式建立檔案。

例如,在 Notepad ++ 中,您可以在畫面右下角找到文件格式。預設情況下,格式設定為 Dos\Windows。您可以在 Notepad++ 設定中將格式變更為 Unix。或者,從 Edit (編輯) 功能表將 EOL 字元轉換為 Unix 格式。