Como posso ter certeza de que os alarmes do CloudWatch ativam ações?

3 minuto de leitura
0

Meu alarme do Amazon CloudWatch não está ativado, embora eu possa ver em meus gráficos do CloudWatch que a métrica do alarme excede o limite configurado. Como posso ter certeza de que meus alarmes do CloudWatch estão ativados e que as ações do alarme são executadas?

Breve descrição

Os alarmes do CloudWatch que medem métricas agregadas por tempo (como médias de cinco minutos) realizam essa medição continuamente em uma janela contínua. Se todos os pontos de dados coletados durante o período de avaliação não excederem o limite configurado, o alarme do CloudWatch não será ativado.

Os alarmes do CloudWatch iniciam ações quando o estado do alarme muda e são mantidos por um determinado número de períodos. Obtenha mais informações consultando Creating CloudWatch alarms (Criar alarmes do CloudWatch).

Importante: há uma exceção a esse comportamento para alarmes do CloudWatch associados às ações do Amazon EC2 Auto Scaling. Um alarme do CloudWatch continua ativando ações de ajuste de escala automático quando esse alarme está em um estado especificado. Isso acontece mesmo quando não há mudanças de estado e o alarme permanece nesse estado.

Resolução

Considere o mecanismo usado pelo CloudWatch para medir métricas agregadas por tempo ao criar alarmes.

Considere reduzir os limites de dados métricos para garantir que o alarme funciona como esperado.

Exemplo de solução de problemas

Neste exemplo, há um alarme baseado na utilização média da CPU. O alarme é configurado com um limite de > 45. Funciona por pelo menos três períodos consecutivos de cinco minutos. O período de avaliação é de três e um período de 300 segundos para estas métricas agregadas por tempo:

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=41.685}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.846}
  • 06:00:00: data: {Avg=61.123}

Esses pontos de dados resultam nos estados de alarme a seguir:

  • ALARME 05:35
  • ALARME 05:40
  • ALARME 05:45 até OK
  • OK 05:50
  • OK 05:55
  • OK 06:00 até ALARME

O ponto de dados coletado às 05:55 excede o limite médio de utilização da CPU de 45%. No entanto, o alarme segue no estado OK e não ativa a ação às 05:55. Isso acontece porque o ponto de dados coletado às 05:45:00, que não excede o limite, é incluído na avaliação às 05:55. No entanto, cinco minutos depois, o alarme inicia a ação porque o estado do alarme muda de OK para ALARME às 06:00.

Para estas métricas agregadas por tempo, o estado do alarme é ALARME após 05:35 porque todos os pontos de dados excedem o limite médio de utilização da CPU de 45%. Como não há mudanças de estado, a ação de alarme não é ativada.

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=45.075}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.847}
  • 06:00:00: data: {Avg=61.123}

Informações relacionadas

Escalabilidade dinâmica para Amazon EC2 Auto Scaling

Visualizar métricas disponíveis

AWS OFICIAL
AWS OFICIALAtualizada há 2 anos