Pourquoi mon alarme CloudWatch s’est-elle déclenchée alors que la métrique surveillée ne contient aucun points de données hors limites ?

Lecture de 5 minute(s)
0

Mon alarme Amazon CloudWatch est passée à l’état ALARM. Lorsque je vérifie la métrique qui est surveillée, le graphique CloudWatch ne montre aucun points de données hors limites. Cependant, l’historique des alarmes contient une entrée dont un point de données est hors limites. Je souhaite savoir ce qui a déclenché mon alarme CloudWatch.

Brève description

Les alarmes CloudWatch évaluent les métriques en fonction des points de données disponibles en temps réel. L’historique de l’alarme montre un enregistrement des points de données que l’alarme a évalués à cet horodatage. Toutefois, après l’évaluation de l’alarme, CloudWatch peut publier de nouveaux échantillons. Les nouveaux échantillons peuvent affecter la valeur calculée lorsque CloudWatch agrège les données de métriques.

Résolution

Trouver les points de données hors limites

Si votre graphique CloudWatch ne montre aucun point de données hors limites, c’est que les points de données ont été définis en dehors de la période d’évaluation de l’alarme.

Par exemple, un nombre X d’échantillons devient disponible en cas d’évaluation d’une alarme. Le nombre X d’exemples donne une valeur agrégée A. De nouveaux échantillons sont ensuite publiés. Un nombre Y d’échantillons est alors récupéré pour le même horodatage. Les échantillons contenant le nombre Y donnent une valeur agrégée B.

Dans l’exemple suivant, une alarme est configurée à l’aide des paramètres précédents :

  • Espace de noms : Web_App
  • Métrique : ResponseTime
  • Dimension: host,h_04254448d4e964956
  • Statistique : Moyenne
  • Seuil : 0,005
  • ComparisonOperator : GreaterThanThreshold
  • Période : 60 secondes (1 minute)
  • Période d’évaluation : 1

Lorsque l’alarme évalue la période comprise entre 12 h et 12 h 01 UTC, la métrique extrait les valeurs suivantes :

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421

La moyenne de ces valeurs étant de 0,006283333, elle dépasse le seuil de 0,005 seconde et l’alarme passe à l’état ALARM. L’historique de l’alarme montre les valeurs agrégées qui dépassent le seuil.

Un hôte qui connaît temporairement un problème de performance affecte l’application client responsable de la publication des métriques. Par conséquent, l’hôte peut ne pas publier de points de données à intervalles réguliers. Dans ce cas, les échantillons de 12 h sont publiés après l’évaluation de l’alarme.

L’exemple suivant représente tous les échantillons de l’horodatage de 12 h :

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421  
Sample-4: 12:00:00 UTC, numeric value: 0.00002  
Sample-5: 12:00:00 UTC, numeric value: 0.00007

Lorsque vous recevez une alerte, générez un graphique CloudWatch pour examiner le comportement de la métrique. CloudWatch récupère les cinq échantillons de 12 h et 12 h 01 UTC et les regroupe sous la forme d’une moyenne de 0,003788. La valeur a donc changé par rapport à la valeur calculée précédemment et est inférieure au seuil. Si des échantillons supplémentaires sont publiés après l’évaluation de l’alarme, les points de données hors limites ne sont pas visibles dans la plage de temps.

Augmenter l’intervalle d’évaluation des alarmes

Lorsque vous configurez les points de données en alarme, un intervalle d’évaluation plus long peut se produire. Lorsqu’une alarme génère de fausses alertes en raison de métriques différées, l’intervalle d’évaluation augmente et les points de données différés sont inclus dans l’évaluation de l’alarme. L’inclusion de points de données différés réduit le nombre de fausses alertes.

Pour augmenter l’intervalle d’évaluation, utilisez l’une des options suivantes.

Prolongez la période. Dans l’exemple suivant, la période est fixée à 5 minutes :

Espace de noms : Web_App
Métrique : ResponseTime
Dimension: host,h_04254448d4e964956
Statistique : Moyenne
Seuil : 0,005
ComparisonOperator : GreaterThanThreshold
Période : 300 secondes (5 minutes)
Période d’évaluation : 1

Vous pouvez également configurer M sur N Points de données en alarme. Dans l'exemple suivant, M points de données sur N sont configurés pour deux points de données sur trois :

Espace de noms : Web_App
Métrique : ResponseTime
Dimension: host,h_04254448d4e964956
Statistique : Moyenne
Seuil : 0,005
ComparisonOperator : GreaterThanThreshold
Période : 60 secondes (1 minute)
Période d’évaluation (N) : 3
Points de données en alarme (M) : 2

Lorsque vous configurez les Périodes d’évaluation et Points de données en alarme comme des valeurs différentes, l’alarme M sur N est réglée. La section Points de données en alarme est définie sur M et Période d’évaluation est définie sur N. Par exemple, si vous configurez quatre points de données sur cinq pour une durée d’une minute, l’intervalle d’évaluation est de cinq minutes. Si vous configurez trois points de données sur trois pour une durée de 10 minutes, l’intervalle d’évaluation est de 30 minutes.

Si vous configurez Points de données en alarme avec des valeurs différentes, les alarmes CloudWatch évaluent davantage de points de données. Les alarmes CloudWatch changent également d’état lorsqu’un nombre minimum de points de données est inférieur à un ensemble de points de données. Ce paramètre permet de régler l’alarme pour qu’elle s’active sur un seul point de données ou qu’elle nécessite plusieurs points de données pour passer à l’état ALARM.

Pour plus d’informations, consultez Création d’une alarme CloudWatch basée sur un seuil statique et Configuration de la façon dont les alarmes CloudWatch traitent les données manquantes.

Informations connexes

Pourquoi n’ai-je pas reçu de notification SNS pour mon déclencheur d’alerte Amazon CloudWatch ?

Comment résoudre mon alarme CloudWatch dans l’état INSUFFICIENT_DATA ?

Pourquoi mon alarme CloudWatch m’a-t-elle envoyé une notification après la violation d’un seul point de données ?

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a 8 mois