Wie behebe ich Fehler mit fehlenden CloudWatch-Metriken für meinen Sagemaker AI-Endpunkt?

Lesedauer: 3 Minute
0

Ich möchte Fehler bei fehlenden Amazon CloudWatch-Metriken für meinen Amazon SageMaker AI-Endpunkt beheben.

Behebung

Hinweis: Wenn du beim Ausführen von AWS Command Line Interface (AWS CLI)-Befehlen Fehlermeldungen erhältst, findest du weitere Informationen dazu unter Problembehandlung bei der AWS CLI. Stelle außerdem sicher, dass du die neueste Version von AWS CLI verwendest.

Überprüfe den Namespace und die Dimensionen deiner CloudWatch-Metrik

Stelle sicher, dass du den richtigen CloudWatch-Namespace überprüfst:

  • Der Namespace AWS/SageMaker umfasst Metriken zum Laden von Modellen aus API-Aufrufen an InvokeEndpoint.
  • Der Namespace aws/sagemaker/Endpoints enthält Instance-Metriken von API-Aufrufen an InvokeEndpoint.
  • Der Namespace aws/sagemaker/InferenceComponents enthält Metriken aus API-Aufrufen an InvokeEndpoint für Endpunkte, die Inferenzkomponenten hosten.

Weitere Informationen findest du unter Metriken für die Überwachung von Amazon SageMaker AI mit Amazon CloudWatch.

Außerdem lauten die Dimensionen für SageMaker AI-Endpunktmetriken EndpointName und VariantName.

Deine IAM-Berechtigungen überprüfen

Um Metriken in CloudWatch zu veröffentlichen und Protokollgruppen zu verwalten, muss die AWS Identity and Access Management (IAM)-Rolle, die deinem Endpunkt zugeordnet ist, über die erforderlichen IAM-Berechtigungen verfügen.

Beispiele für Berechtigungen:

{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "cloudwatch:ListMetrics",
            "cloudwatch:GetMetricData",
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "*"
    }]
}

Überprüfe deine CloudWatch-Metriken 20 Minuten nach der Erstellung oder Aktualisierung deines Endpunkts

Nachdem du einen Endpunkt erstellt oder aktualisiert hast, kann es bis zu 20 Minuten dauern, bis CloudWatch-Metriken verfügbar sind. Warte mindestens 20 Minuten, bevor du deine Messwerte überprüfst.

Überprüfe deine SageMaker AI CloudWatch Logs

Überprüfe deine SageMaker AI-Protokolle, um Probleme zu identifizieren, die dazu führen könnten, dass deine Metriken nicht auf CloudWatch veröffentlicht werden. Verwende die CloudWatch-Konsole, um auf deine SageMaker-Protokolle zuzugreifen. Oder führe den folgenden get-log-events-Befehl aus:

aws logs get-log-events --log-group-name example-sagemaker-log-group-name

Hinweis: Ersetze example-sagemaker-log-group-name durch den Namen deiner SageMaker AI-Protokollgruppe.

Überprüfe die Aufbewahrungsdauer deiner Metriken

CloudWatch speichert Metrikdaten 15 Monate lang.

Gehe wie folgt vor, um historische CloudWatch-Metriken für deinen SageMaker AI-Endpunkt anzuzeigen:

  1. Öffne die CloudWatch-Konsole.
  2. Wähle im Navigationsbereich Metriken und dann Alle Metriken aus.
  3. Wähle die Metrik aus, die du anzeigen möchtest.
  4. Um ein Diagramm anzuzeigen, das historische Daten für deine Metrik in einem bestimmten Zeitraum anzeigt, lege einen Zeitraum fest.

Weitere Informationen findest du unter Protokollierung mit CloudWatch.

Überprüfe deine Endpunkt-Aufrufaktivitäten

CloudWatch generiert Metriken, wenn deine Endpunkte einen konsistenten Traffic haben. Prüfe, ob es auf deinem SageMaker AI-Endpunkt Traffic oder Aufrufaktivitäten gibt.

Gehe wie folgt vor, um den Aufrufverlauf deines Endpunkts zu überprüfen:

  1. Öffne die SageMaker AI-Konsole.
  2. Wähle im Navigationsbereich Inferenz und dann Endpunkte aus.
  3. Wähle deinen Endpunkt aus.
  4. Wähle die Registerkarte Überwachen und dann Aufrufverlauf anzeigen aus.

Oder führe den folgenden sagemaker-runtime-Befehl aus, um den Verlauf deines Endpunktaufrufs abzurufen:

aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]

Hinweis: Ersetze example-endpoint-name durch deinen Endpunktnamen, example-number durch die maximale Anzahl von Ergebnissen, die du anzeigen möchtest, und example-timestamp durch die Startzeit.