Come posso risolvere i problemi relativi alle metriche di CloudWatch mancanti per il mio endpoint Sagemaker AI?

3 minuti di lettura
0

Desidero risolvere i problemi relativi alle metriche di Amazon CloudWatch mancanti per il mio endpoint Amazon SageMaker AI.

Risoluzione

Nota: se ricevi errori durante l’esecuzione dei comandi dell'Interfaccia della linea di comando AWS (AWS CLI), consulta Risoluzione degli errori per AWS CLI. Inoltre, assicurati di utilizzare la versione più recente di AWS CLI.

Controlla il namespace e le dimensioni delle metriche di CloudWatch

Assicurati che il namespace CloudWatch controllato sia quello corretto:

  • Il namespace AWS/SageMaker include le metriche di caricamento dei modelli dalle chiamate API a InvokeEndpoint.
  • Il namespace aws/sagemaker/Endpoints include le metriche delle istanze dalle chiamate API a InvokeEndpoint.
  • Il namespace aws/sagemaker/InferenceComponents include le metriche delle chiamate API a InvokeEndpoint per gli endpoint che ospitano componenti di inferenza.

Per ulteriori informazioni, consulta Metriche per il monitoraggio di Amazon SageMaker AI con Amazon CloudWatch.

Inoltre, le dimensioni per le metriche degli endpoint SageMaker AI sono EndpointName e VariantName.

Verifica le tue autorizzazioni IAM

Per pubblicare metriche su CloudWatch e gestire gruppi di log, il ruolo AWS Identity and Access Management (IAM) associato all'endpoint deve disporre delle autorizzazioni IAM richieste.

Esempi di autorizzazione:

{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "cloudwatch:ListMetrics",
            "cloudwatch:GetMetricData",
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "*"
    }]
}

Controlla le metriche di CloudWatch 20 minuti dopo aver creato o aggiornato l'endpoint

Dopo aver creato o aggiornato un endpoint, le metriche di CloudWatch potrebbero richiedere fino a 20 minuti prima di essere disponibili. Attendi almeno 20 minuti prima di controllare le metriche.

Controlla in CloudWatch i log di SageMaker AI

Verifica nei log di SageMaker AI se sono presenti problemi che potrebbero impedire la pubblicazione delle tue metriche su CloudWatch. Per accedere ai log di SageMaker, usa la console CloudWatch. Oppure esegui il seguente comando get-log-events:

aws logs get-log-events --log-group-name example-sagemaker-log-group-name

Nota: sostituisci example-sagemaker-log-group-name con il nome del tuo gruppo di log di SageMaker AI.

Verifica il periodo di conservazione delle metriche

CloudWatch conserva i dati delle metriche per 15 mesi.

Per visualizzare le metriche storiche di CloudWatch per il tuo endpoint SageMaker AI, completa i seguenti passaggi:

  1. Apri la console CloudWatch.
  2. Nel pannello di navigazione, scegli Metriche, quindi seleziona Tutte le metriche.
  3. Scegli la metrica che desideri visualizzare.
  4. Per visualizzare un grafico che mostra i dati storici della metrica in un arco di tempo specificato, imposta un intervallo di tempo.

Per ulteriori informazioni, consulta Registrazione con CloudWatch.

Controlla l'attività di invocazione dell'endpoint

CloudWatch genera metriche quando i tuoi endpoint hanno un traffico costante. Controlla se è presente traffico o attività di invocazione sul tuo endpoint SageMaker AI.

Per controllare la cronologia delle invocazioni dell'endpoint, completa i seguenti passaggi:

  1. Apri la console SageMaker AI.
  2. Nel pannello di navigazione, scegli Inferenza, quindi scegli Endpoint.
  3. Seleziona il tuo endpoint.
  4. Scegli la scheda Monitoraggio, quindi scegli View invocation history (Visualizza cronologia invocazioni).

Oppure esegui il seguente comando sagemaker-runtime per recuperare la cronologia delle invocazioni dell'endpoint:

aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]

Nota: sostituisci example-endpoint-name con il nome del tuo endpoint, example-number con il numero massimo di risultati che desideri visualizzare e example-timestamp con l'ora di inizio.