跳至內容

如何對 Sagemaker AI 端點缺少 CloudWatch 指標進行疑難排解?

2 分的閱讀內容
0

我想對 Amazon SageMaker AI 端點缺少 Amazon CloudWatch 指標的問題進行疑難排解。

解決方法

注意: 如果您在執行 AWS Command Line Interface (AWS CLI) 命令時收到錯誤訊息,則請參閱對 AWS CLI 進行錯誤疑難排解。此外,請確定您使用的是最新的 AWS CLI 版本

檢查您的 CloudWatch 指標命名空間和維度

確定您檢查的是正確的 CloudWatch 命名空間:

  • AWS/SageMaker 命名空間包括從 API 呼叫到 InvokeEndpoint 的模型載入指標。
  • aws/sagemaker/Endpoints 命名空間包含來自 API 呼叫到 InvokeEndpoint 的執行個體指標。
  • aws/sagemaker/InferenceComponents 命名空間包含來自 API 呼叫到 InvokeEndpoint 的指標,其中端點託管推論元件。

如需詳細資訊,請參閱使用 Amazon CloudWatch 監控 Amazon SageMaker AI 的指標

此外,SageMaker AI 端點指標的維度是 EndpointNameVariantName

檢查您的 IAM 權限

若要將指標發佈到 CloudWatch 並管理日誌群組,與端點關聯的 AWS Identity and Access Management (IAM) 角色必須具有所需的 IAM 權限。

權限範例:

{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "cloudwatch:ListMetrics",
            "cloudwatch:GetMetricData",
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "*"
    }]
}

建立或更新端點 20 分鐘後,再檢查 CloudWatch 指標

建立或更新端點後,CloudWatch 指標可能需要最多 20 分鐘才能使用。請至少等待 20 分鐘,再檢查指標。

檢查 SageMaker AI CloudWatch 日誌

檢查 SageMaker AI 日誌,以找出可能導致指標無法發佈到 CloudWatch 的問題。若要存取 SageMaker 日誌,請使用 CloudWatch 主控台。或者,執行以下 get-log-events 命令:

aws logs get-log-events --log-group-name example-sagemaker-log-group-name

注意:example-sagemaker-log-group-name 替換為您 SageMaker AI 日誌群組的名稱。

檢查指標保留期

CloudWatch 會保留指標資料 15 個月。

若要查看 SageMaker AI 端點的歷史 CloudWatch 指標,請完成以下步驟:

  1. 開啟 CloudWatch 主控台
  2. 在導覽窗格中,選擇 Metrics (指標),然後選擇 All metrics (所有指標)。
  3. 選擇您要查看的指標。
  4. 若要查看顯示指定時間內指標歷史資料的圖表,請設定時間範圍。

如需詳細資訊,請參閱使用 CloudWatch 進行記錄

檢查端點調用活動

當您的端點具有一致的流量時,CloudWatch 會產生指標。檢查 SageMaker AI 端點上是否有流量或調用活動。

若要檢查您的端點調用歷史記錄,請完成下列步驟:

  1. 開啟 SageMaker AI 主控台
  2. 在導覽窗格中選擇 Inference (推論),然後選擇 Endpoints (端點)。
  3. 選取您的端點。
  4. 選擇 Monitor (監控) 索引標籤,然後選擇 View invocation history (查看調用歷史記錄)。

或者,執行以下 sagemaker-runtime 命令來擷取端點調用歷史記錄:

aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]

注意:example-endpoint-name 替換為您的端點名稱,將 example-number 替換為您要查看的最大結果數,並將 example-timestamp 替換為開始時間。