Por que meu alarme do CloudWatch foi iniciado quando a métrica monitorada não tem nenhum ponto de dados violado?

5 minuto de leitura
0

Meu alarme do Amazon CloudWatch mudou para o estado ALARM. Quando verifico a métrica monitorada, o gráfico do CloudWatch não mostra nenhum ponto de dados violado. No entanto, o Histórico de Alarmes contém uma entrada com um ponto de dados de violação. Quero saber o que iniciou meu alarme do CloudWatch.

Breve descrição

Os alarmes do CloudWatch avaliam as métricas com base nos pontos de dados que estão disponíveis imediatamente. O histórico de alarmes mostra um registro dos pontos de dados que o alarme avaliou naquele carimbo de data/hora. No entanto, após a avaliação do alarme, o CloudWatch pode publicar novas amostras. Essas novas amostras podem impactar o valor calculado quando o CloudWatch agrega os dados métricos.

Solução

Encontrar os pontos de dados violadores

Se o gráfico do CloudWatch não mostrar nenhum ponto de dados de violação, significa que esses pontos de dados ocorreram fora do horário de avaliação do alarme.

Por exemplo, o número X de amostras fica disponível quando ocorre uma avaliação de alarme. O número X de exemplos resulta em um valor agregado de A. Em seguida, novas amostras são publicadas. Portanto, o número Y de amostras é recuperado com o mesmo carimbo de data/hora. As amostras do número Y resultam em um valor agregado de B.

No exemplo a seguir, um alarme é configurado com os parâmetros anteriores:

  • Namespace: Web_App
  • Metric: ResponseTime
  • Dimension: host,h_04254448d4e964956
  • Statistic: Average
  • Threshold: 0.005
  • ComparisonOperator: GreaterThanThreshold
  • Period: 60 seconds (1 minute)
  • Evaluation Period: 1

Quando o alarme avalia o período de 12:00:00 a 12:01:00 UTC, a métrica recupera os seguintes valores:

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421

Como a média desses valores é 0,006283333, a média ultrapassa o limite de 0,005 segundos e o alarme muda para o estado ALARM. O histórico do alarme mostra os valores agregados que excedem o limite.

Um host que experimenta temporariamente um problema de desempenho afeta o aplicativo cliente responsável pela publicação de métricas. Com isso, o host pode não publicar pontos de dados em intervalos iguais. Nesse caso, as amostras para 12:00 são publicadas após a avaliação do alarme ocorrer.

O exemplo a seguir representa todas as amostras do carimbo de data e hora 12:00:

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421  
Sample-4: 12:00:00 UTC, numeric value: 0.00002  
Sample-5: 12:00:00 UTC, numeric value: 0.00007

Ao receber um alerta do alarme, gere um gráfico do CloudWatch para analisar o comportamento da métrica. O CloudWatch recupera as cinco amostras das 12:00:00 às 12:01:00 UTC e as agrega como uma média de 0,003788. Portanto, o valor mudou do que foi calculado anteriormente e está abaixo do limite. Se amostras adicionais forem publicadas após a avaliação do alarme, os pontos de dados violados não estarão visíveis no intervalo de tempo.

Aumentar o intervalo de avaliação do alarme

Quando você configura pontos de dados para alarme, um intervalo de avaliação mais longo pode ocorrer. Quando um alarme gera alertas falsos devido a métricas atrasadas, o intervalo de avaliação aumenta e os pontos de dados atrasados são incluídos na avaliação do alarme. A inclusão de pontos de dados atrasados reduz o número de alertas falsos.

Para aumentar o intervalo de avaliação, use uma das opções a seguir.

Aumente o período. No exemplo a seguir, o período é aumentado para cinco minutos:

Namespace: Web_App
Metric: ResponseTime
Dimension: host,h_04254448d4e964956
Statistic: Average
Threshold: 0.005
ComparisonOperator: GreaterThanThreshold
Period: 300 seconds (5 minutes)
Evaluation Period: 1

Ou configure Pontos de dados para o alarme M de N. No exemplo a seguir, M de N pontos de dados são configurados para dois de três:

Namespace: Web_App
Metric: ResponseTime
Dimension: host,h_04254448d4e964956
Statistic: Average
Threshold: 0.005
ComparisonOperator: GreaterThanThreshold
Period: 60 seconds (1 minute)
Evaluation Period (N): 3.
Datapoints To Alarm (M): 2

Quando você configura Evaluation Periods e Datapoints to Alarm como valores diferentes, você define um alarme “M de N”. Datapoints to Alarm são configurados para M e o Evaluation Period é configurado para N. Por exemplo, se você configurar quatro dos cinco pontos de dados com um período de um minuto, o intervalo de avaliação será de cinco minutos. Se você configurar três dos três pontos de dados com um período de 10 minutos, o intervalo de avaliação será de 30 minutos.

Se você configurar **pontos de dados como alarme ** com valores diferentes, os alarmes do CloudWatch avaliarão mais pontos de dados. Os alarmes do CloudWatch também alteram o estado do alarme quando um número mínimo de pontos de dados viola um conjunto de pontos de dados. Esse parâmetro pode ajustar o alarme para ser disparado em um único ponto de dados ou exigir que vários pontos de dados façam a transição para o estado ALARM.

Para mais informações, consulte Criar um alarme do CloudWatch com base em um limite estático e Configurar como os alarmes do CloudWatch tratam os dados perdidos.

Informações relacionadas

Por que não recebi uma notificação do SNS me avisando que o alarme do CloudWatch foi acionado?

Como soluciono problemas do meu alarme do CloudWatch no estado INSUFFICIENT_DATA state?

Por que meu alarme do Amazon CloudWatch me enviou uma notificação após um único ponto de dados violado?

AWS OFICIAL
AWS OFICIALAtualizada há 9 meses