Je souhaite résoudre les problèmes liés aux métriques Amazon CloudWatch manquantes pour mon point de terminaison Amazon SageMaker AI.
Résolution
Remarque : Si des erreurs surviennent lorsque vous exécutez des commandes de l'interface de la ligne de commande AWS (AWS CLI), consultez la section Résoudre des erreurs liées à l’AWS CLI. Vérifiez également que vous utilisez bien la version la plus récente de l'interface.
Vérifier l'espace de noms et les dimensions de vos métriques CloudWatch
Assurez-vous de vérifier l’espace de noms CloudWatch adéquat :
- L'espace de noms AWS/SageMaker inclut des métriques de chargement de modèle provenant des appels d'API vers InvokeEndpoint.
- L'espace de noms aws/sagemaker/Endpoints inclut des métriques d'instance provenant des appels d'API vers InvokeEndpoint.
- L'espace de noms aws/sagemaker/InferenceComponents inclut des métriques provenant des appels d'API vers InvokeEndpoint pour les points de terminaison hébergeant des composants d'inférence.
Pour plus d'informations, consultez la section Métriques de surveillance d'Amazon SageMaker AI avec Amazon CloudWatch.
En outre, les dimensions des métriques de point de terminaison de SageMaker AI sont EndpointName et VariantName.
Vérifier vos autorisations IAM
Pour publier des métriques sur CloudWatch et gérer des groupes de journaux, le rôle AWS Identity and Access Management (IAM) associé à votre point de terminaison doit disposer des autorisations IAM requises.
Exemples d'autorisations :
{
"Version": "2012-10-17",
"Statement": [{
"Effect": "Allow",
"Action": [
"cloudwatch:PutMetricData",
"cloudwatch:ListMetrics",
"cloudwatch:GetMetricData",
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:PutLogEvents"
],
"Resource": "*"
}]
}
Vérifier vos métriques CloudWatch 20 minutes après avoir créé ou mis à jour votre point de terminaison
Une fois que vous avez créé ou mis à jour un point de terminaison, les métriques CloudWatch peuvent prendre jusqu'à 20 minutes avant d'être disponibles. Attendez au moins 20 minutes avant de vérifier vos métriques.
Consulter vos journaux SageMaker AI CloudWatch
Consultez vos journaux SageMaker AI pour identifier les problèmes susceptibles d'empêcher la publication de vos métriques sur CloudWatch. Pour accéder à vos journaux SageMaker, utilisez la console CloudWatch. Vous pouvez également exécuter la commande get-log-events suivante :
aws logs get-log-events --log-group-name example-sagemaker-log-group-name
Remarque : Remplacez example-sagemaker-log-group-name par le nom de votre groupe de journaux SageMaker AI.
Vérifier la période de conservation de vos métriques
CloudWatch conserve les données métriques pendant 15 mois.
Pour consulter les métriques CloudWatch historiques pour votre point de terminaison SageMaker AI, procédez comme suit :
- Ouvrez la console CloudWatch.
- Dans le volet de navigation, sélectionnez Métriques, puis Toutes les métriques.
- Choisissez la métrique que vous souhaitez consulter.
- Pour afficher un graphique qui affiche les données historiques de votre métrique au cours d'une période donnée, définissez une période.
Pour plus d'informations, consultez la section Journalisation avec CloudWatch.
Vérifier l'activité d'invocation de votre point de terminaison
CloudWatch génère des métriques lorsque le trafic de vos points de terminaison est constant. Vérifiez l’existence d’un trafic ou d’une activité d'invocation sur votre point de terminaison SageMaker AI.
Pour consulter l'historique d’invocation de votre point de terminaison, procédez comme suit :
- Ouvrez la console SageMaker AI.
- Dans le volet de navigation, sélectionnez Inférence, puis Points de terminaison.
- Sélectionnez votre point de terminaison.
- Cliquez sur l'onglet Surveiller, puis sélectionnez Afficher l'historique d’invocation.
Vous pouvez également exécuter la commande sagemaker-runtime suivante pour récupérer l'historique d’invocation de votre point de terminaison :
aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]
Remarque : Remplacez example-endpoint-name par le nom de votre point de terminaison, example-number par le nombre maximum de résultats que vous souhaitez afficher et example-timestamp par l'heure de début.