Complete a 3 Question Survey and Earn a re:Post Badge
Help improve AWS Support Official channel in re:Post and share your experience - complete a quick three-question survey to earn a re:Post badge!
Come posso risolvere i problemi relativi alle metriche di CloudWatch mancanti per il mio endpoint Sagemaker AI?
Desidero risolvere i problemi relativi alle metriche di Amazon CloudWatch mancanti per il mio endpoint Amazon SageMaker AI.
Risoluzione
Nota: se ricevi errori durante l’esecuzione dei comandi dell'Interfaccia della linea di comando AWS (AWS CLI), consulta Risoluzione degli errori per AWS CLI. Inoltre, assicurati di utilizzare la versione più recente di AWS CLI.
Controlla il namespace e le dimensioni delle metriche di CloudWatch
Assicurati che il namespace CloudWatch controllato sia quello corretto:
- Il namespace AWS/SageMaker include le metriche di caricamento dei modelli dalle chiamate API a InvokeEndpoint.
- Il namespace aws/sagemaker/Endpoints include le metriche delle istanze dalle chiamate API a InvokeEndpoint.
- Il namespace aws/sagemaker/InferenceComponents include le metriche delle chiamate API a InvokeEndpoint per gli endpoint che ospitano componenti di inferenza.
Per ulteriori informazioni, consulta Metriche per il monitoraggio di Amazon SageMaker AI con Amazon CloudWatch.
Inoltre, le dimensioni per le metriche degli endpoint SageMaker AI sono EndpointName e VariantName.
Verifica le tue autorizzazioni IAM
Per pubblicare metriche su CloudWatch e gestire gruppi di log, il ruolo AWS Identity and Access Management (IAM) associato all'endpoint deve disporre delle autorizzazioni IAM richieste.
Esempi di autorizzazione:
{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "cloudwatch:ListMetrics", "cloudwatch:GetMetricData", "logs:CreateLogGroup", "logs:CreateLogStream", "logs:PutLogEvents" ], "Resource": "*" }] }
Controlla le metriche di CloudWatch 20 minuti dopo aver creato o aggiornato l'endpoint
Dopo aver creato o aggiornato un endpoint, le metriche di CloudWatch potrebbero richiedere fino a 20 minuti prima di essere disponibili. Attendi almeno 20 minuti prima di controllare le metriche.
Controlla in CloudWatch i log di SageMaker AI
Verifica nei log di SageMaker AI se sono presenti problemi che potrebbero impedire la pubblicazione delle tue metriche su CloudWatch. Per accedere ai log di SageMaker, usa la console CloudWatch. Oppure esegui il seguente comando get-log-events:
aws logs get-log-events --log-group-name example-sagemaker-log-group-name
Nota: sostituisci example-sagemaker-log-group-name con il nome del tuo gruppo di log di SageMaker AI.
Verifica il periodo di conservazione delle metriche
CloudWatch conserva i dati delle metriche per 15 mesi.
Per visualizzare le metriche storiche di CloudWatch per il tuo endpoint SageMaker AI, completa i seguenti passaggi:
- Apri la console CloudWatch.
- Nel pannello di navigazione, scegli Metriche, quindi seleziona Tutte le metriche.
- Scegli la metrica che desideri visualizzare.
- Per visualizzare un grafico che mostra i dati storici della metrica in un arco di tempo specificato, imposta un intervallo di tempo.
Per ulteriori informazioni, consulta Registrazione con CloudWatch.
Controlla l'attività di invocazione dell'endpoint
CloudWatch genera metriche quando i tuoi endpoint hanno un traffico costante. Controlla se è presente traffico o attività di invocazione sul tuo endpoint SageMaker AI.
Per controllare la cronologia delle invocazioni dell'endpoint, completa i seguenti passaggi:
- Apri la console SageMaker AI.
- Nel pannello di navigazione, scegli Inferenza, quindi scegli Endpoint.
- Seleziona il tuo endpoint.
- Scegli la scheda Monitoraggio, quindi scegli View invocation history (Visualizza cronologia invocazioni).
Oppure esegui il seguente comando sagemaker-runtime per recuperare la cronologia delle invocazioni dell'endpoint:
aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]
Nota: sostituisci example-endpoint-name con il nome del tuo endpoint, example-number con il numero massimo di risultati che desideri visualizzare e example-timestamp con l'ora di inizio.
