Come posso essere sicuro che gli allarmi di CloudWatch attivino le azioni?

3 minuti di lettura
0

Il mio allarme Amazon CloudWatch non è attivato anche se dai grafici di CloudWatch posso vedere che la metrica dell'allarme supera la soglia configurata. Come posso essere sicuro che i miei allarmi CloudWatch siano attivati e che le azioni di allarme vengano eseguite?

Breve descrizione

Gli allarmi CloudWatch che misurano metriche aggregate nel tempo (come medie di cinque minuti) eseguono questa misurazione continuamente in una finestra continua. Se tutti i punti dati raccolti durante il periodo di valutazione non superano la soglia configurata, l'allarme CloudWatch non viene attivato.

Gli allarmi CloudWatch avviano le azioni quando lo stato dell'allarme cambia e vengono mantenuti per un numero specificato di periodi. Per ulteriori informazioni, consulta Creazione di allarmi CloudWatch.

Importante: esiste un'eccezione a questo comportamento per gli allarmi CloudWatch associati alle azioni di dimensionamento automatico Amazon EC2. Un allarme CloudWatch continua ad attivare le azioni di dimensionamento automatico quando l'allarme si trova in uno stato specificato. Ciò accade anche se non ci sono cambiamenti di stato e l'allarme rimane in quello stato.

Risoluzione

Assicurati di considerare il meccanismo utilizzato da CloudWatch per misurare le metriche aggregate nel tempo quando crei allarmi.

Valuta la possibilità di abbassare le soglie dei dati metrici per assicurarti che l'allarme funzioni come previsto.

Esempio di risoluzione problemi

In questo esempio, è presente un allarme basato sull'utilizzo medio della CPU. L'allarme è configurato con una soglia di > 45. Funziona per almeno tre periodi consecutivi di cinque minuti. Il periodo di valutazione è di tre e un periodo di 300 secondi per le seguenti metriche aggregate nel tempo:

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=41.685}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.846}
  • 06:00:00: data: {Avg=61.123}

Questi punti dati generano i seguenti stati di allarme:

  • 05:35 ALARM
  • 05:40 ALARM
  • 05:45 ALARM a OK
  • 05:50 OK
  • 05:55 OK
  • 06:00 OK a ALARM

I dati raccolti alle 05:55 superano la soglia media di utilizzo della CPU del 45%. Tuttavia, l'allarme rimane nello stato OK e non attiva l'azione alle 05:55:54. Questo accade perché il data point raccolto alle 05:45:00, che non supera la soglia, viene incluso nella valutazione alle 05:55. Tuttavia, cinque minuti dopo, l'allarme avvia l'azione perché lo stato dell'allarme cambia da OK a ALARM alle 06:00.

Per le seguenti metriche aggregate nel tempo, lo stato di allarme è ALARM dopo le 05:35 perché tutti i punti dati superano la soglia di utilizzo medio della CPU del 45%. Poiché non ci sono cambiamenti di stato, l'azione di allarme non viene attivata.

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=45.075}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.847}
  • 06:00:00: data: {Avg=61.123}

Informazioni correlate

Scalabilità dinamica per dimensionamento automatico Amazon EC2

Visualizzazione delle metriche disponibili

AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa