跳至內容

啟動 SageMaker AI 資源時,如何解決容量不足的錯誤?

1 分的閱讀內容
0

我想針對當我嘗試啟動以下其中一種 Amazon SageMaker AI 資源時所收到的「InsufficientCapacity」錯誤進行疑難排解:訓練任務、批次轉換任、處理任、端點、筆記本執行個體或 SageMaker Studio 應用程式。

解決方法

當 AWS 沒有足夠的隨需容量來完成您的請求時,您可能會收到類似以下錯誤訊息的 InsufficientCapacity 錯誤:

「由於 InsufficientInstanceCapacity 錯誤,無法佈建請求的 ML 計算容量。請使用其他 ML 執行個體類型或稍後再試一次。」

「呼叫 StartInstances 作業時發生錯誤 (InsufficientInstanceCapacity) (已達到最大重試次數: 4): 容量不足。」

Amazon Elastic Compute Cloud (Amazon EC2) 執行個體容量不是靜態的。執行個體容量取決於特定 AWS 區域或可用區域中的工作負載。容量不足錯誤與 AWS 套用至您 AWS 帳戶的資源配額無關。

容量問題通常是暫時性的,當您再次嘗試請求時可能會解決。如果您可以延遲請求,請稍後再嘗執行該請求。

若要立即存取執行個體,請執行下列其中一個動作:

  • 根據您的工作負載,切換到同一系列中較大的執行個體大小、不同的執行個體類型,或使用不同的執行個體系列。
  • 在相同執行個體類型的不同區域或可用區域中啟動資源,因為每個執行個體類型都有自己的容量。確認每個區域可用的 SageMaker AI 執行個體類型。
    **注意:**若要查看執行個體類型可用性,請在 On-demand pricing (隨需定價) 頁面上,選擇 SageMaker 功能的索引標籤。然後從 Region (區域) 下拉式清單中選取您的區域。
  • 提交一個新的執行個體請求,並減少執行個體數量。
  • 若要為關鍵任務工作負載保留執行個體,請使用隨需容量保留。若要建立容量保留,請聯絡您的 AWS 客戶經理。

如果您啟動 SageMaker Studio 應用程式,請使用跨多個可用區域的子網路來設定應用程式,以將容量問題降至最低。

如果您啟動筆記本執行個體或訓練工作,請在不同可用區域中選取具有多個子網路的相同執行個體類型。

相關資訊

執行個體容量不足

支援的區域和配額

AWS 官方已更新 2 個月前