¿Por qué se activó mi alarma de CloudWatch si su métrica no contiene ningún dato de superación de umbral?

6 minutos de lectura
0

Mi alarma de Amazon CloudWatch cambió al estado ALARM. Cuando compruebo la métrica que se monitorea, el gráfico de CloudWatch no muestra ningún punto de datos que haya superado el umbral. Sin embargo, el historial de alarmas contiene una entrada con un punto de datos que ha superado el umbral. ¿Por qué se activó mi alarma de CloudWatch?

Descripción corta

Las alarmas de CloudWatch evalúan las métricas en función de los puntos de datos disponibles en un momento determinado. El historial de alarmas captura un registro de los puntos de datos que la alarma evaluó en esa marca temporal. Sin embargo, es posible publicar nuevas muestras después de que se haya producido la evaluación de la alarma. Estos nuevos ejemplos pueden afectar al valor que se calcula cuando CloudWatch agrega los datos de las métricas.

Resolución

Encuentre los puntos de datos infractores

Si su gráfico de CloudWatch no muestra ningún punto de datos que haya infringido la seguridad, significa que esos puntos de datos se produjeron fuera del tiempo de evaluación de la alarma. Para entender cómo ocurre esto, consulte el siguiente ejemplo.

En este ejemplo, hay un número X de muestras disponibles cuando se produce una evaluación de alarma, lo que da como resultado un valor agregado de A. Posteriormente, se publican nuevas muestras, lo que da como resultado un número Y de muestras que se recuperan para la misma marca temporal. Esto da como resultado un valor agregado diferente de B.

En esta situación, se configura una alarma con los siguientes parámetros:

  • Espacio de nombres: Web\ _App
  • Métrica: ResponseTime
  • Dimensión: host,h_04254448d4e964956
  • Estadística: Promedio
  • Umbral: 0,005
  • Operador de comparación: GreaterThanThreshold
  • Periodo: 60 segundos (1 minuto)
  • Periodo de evaluación: 1

Cuando la alarma evalúa el periodo comprendido entre las 12:00:00 y las 12:01:00 UTC, la métrica recupera los siguientes valores:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421

El promedio de estos valores es de 0,006283333, lo que supera el umbral de 0,005 segundos. Por lo tanto, la alarma cambia al estado ALARM (ALARMA). El historial de la alarma captura los valores agregados que superan el umbral.

Es posible que el host experimente un problema de rendimiento temporal que afecte a la aplicación cliente responsable de publicar las métricas. Como resultado, es posible que el host no publique puntos de datos a intervalos igualmente espaciados. En esta situación, las muestras de las 12:00 se publicaron después de que se produjera la evaluación de la alarma. A continuación se muestran todos los ejemplos de la marca temporal de las 12:00:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Sample-4: 12:00:00 UTC, numeric value: 0.00002
Sample-5: 12:00:00 UTC, numeric value: 0.00007

Tras recibir una alerta de esta alarma, el usuario renderiza un gráfico de CloudWatch para revisar el comportamiento de la métrica. CloudWatch recupera las cinco muestras entre las 12:00:00 y las 12:01:00 UTC y las agrega en un promedio de 0,003788. Es diferente del valor calculado anteriormente y está por debajo del umbral. Por lo tanto, los puntos de datos infractores no están visibles en el intervalo de tiempo porque se publicaron muestras adicionales después de que se produjera la evaluación de la alarma.

Aumente el intervalo de evaluación de alarmas

El intervalo de evaluación de una alarma es el número de puntos de datos multiplicado por el período. La configuración de puntos de datos como alarma puede resultar en un intervalo de evaluación más largo. Cuando una alarma genera alertas falsas debido a métricas retrasadas, aumentar el intervalo de evaluación permite tener en cuenta los puntos de datos retrasados en la evaluación de la alarma. Esto reduce el número de alertas falsas.

El intervalo de evaluación se puede aumentar de dos maneras:

1.    Aumente el período. En el ejemplo siguiente, el periodo se incrementa a cinco minutos:

  • Espacio de nombres: Web\ _App
  • Métrica: ResponseTime
  • Dimensión: host,h_04254448d4e964956
  • Estadística: Promedio
  • Umbral: 0,005
  • Operador de comparación: GreaterThanThreshold
  • Periodo: 300 segundos (5 minutos)
  • Periodo de evaluación: 1

-o-

2.    Configure puntos de datos «M de N» como alarma.

En el siguiente ejemplo, M de los N puntos de datos se configuran en dos de cada tres.

  • Espacio de nombres: Web\ _App
  • Métrica: ResponseTime
  • Dimensión: host,h_04254448d4e964956
  • Estadística: Promedio
  • Umbral: 0,005
  • Operador de comparación: GreaterThanThreshold
  • Periodo: 60 segundos (1 minuto)
  • Periodo de evaluación (N): 3
  • Puntos de datos para alarma (M): 2

Al configurar los periodos de evaluación y los puntos de datos para alarma como valores diferentes, se establece una alarma de «M de N». **Los puntos de datos para alarma ** son M y el periodo de evaluación es N. Por ejemplo, si configura cuatro de los cinco puntos de datos con un periodo de un minuto, el intervalo de evaluación es de cinco minutos. Del mismo modo, si configura tres de los tres puntos de datos con un período de diez minutos, el intervalo de evaluación es de treinta minutos.

Con los puntos de datos para alarma configurados de esta manera, las alarmas de CloudWatch evalúan más puntos de datos. También cambian el estado de alarma solo cuando un número mínimo de puntos de datos (M) infringen un conjunto determinado de puntos de datos (N). Este parámetro puede ajustar la alarma para que se active en un único punto de datos o requerir varios puntos de datos para pasar al estado ALARM.

Para obtener más información, consulte Create a CloudWatch alarm based on a static threshold (Creación de una alarma de CloudWatch basada en un umbral estático) y Configuring how CloudWatch alarms treat missing data (Configuración de la forma en que las alarmas de CloudWatch tratan los datos faltantes).


Información relacionada

Why didn't I receive an Amazon Simple Notification Service (Amazon SNS) notification for my CloudWatch alarm trigger? (¿Por qué no he recibido una notificación de Amazon Simple Notification Service (Amazon SNS) para activar mi alarma de CloudWatch?)

¿Por qué mi alarma de CloudWatch se encuentra en el estado INSUFFICIENT_DATA (datos insuficientes)?

¿Por qué mi alarma de CloudWatch me envió una notificación después de que se hubiese superado el umbral de un único punto de datos?

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año