Perché l’allarme CloudWatch si è attivato quando la metrica monitorata non presenta alcun datapoint violato?
L’allarme Amazon CloudWatch è passato allo stato ALARM. Quando controllo la metrica che viene monitorata, il grafico di CloudWatch non mostra alcun datapoint violato. Tuttavia, la cronologia degli allarmi contiene una voce con un datapoint violato. Desidero sapere cosa ha causato l’attivazione dell’allarme CloudWatch.
Breve descrizione
Gli allarmi CloudWatch valutano le metriche in base ai datapoint immediatamente disponibili. La cronologia degli allarmi registra i datapoint che l'allarme ha valutato in quel timestamp. Tuttavia, dopo la valutazione dell'allarme, CloudWatch può pubblicare nuovi campioni. Questi nuovi campioni potrebbero influire sul valore calcolato quando CloudWatch aggrega i dati delle metriche.
Risoluzione
Ricerca dei datapoint violati
Se il grafico di CloudWatch non mostra alcun datapoint violato, tali datapoint si sono verificati al di fuori del tempo di valutazione dell'allarme.
Ad esempio, un numero X di campioni diventa disponibile quando si verifica una valutazione di allarme. Il numero X di campioni dà come risultato un valore aggregato di A. Quindi, vengono pubblicati nuovi campioni. Di conseguenza, il numero Y di campioni viene recuperato per lo stesso timestamp. I campioni del numero Y danno come risultato un valore aggregato di B.
Nel seguente esempio, un allarme è configurato con i parametri precedenti:
- Spazio dei nomi: Web_App
- Metrica: ResponseTime
- Dimension: host,h_04254448d4e964956
- Statistica: Average
- Soglia: 0,005
- ComparisonOperator: GreaterThanThreshold
- **Periodo: 60 secondi (1 minuto) **
- Periodo di valutazione: 1
Quando l'allarme valuta il periodo dalle 12:00:00 alle 12:01:00 UTC, la metrica recupera i seguenti valori:
Sample-1: 12:00:00 UTC, numeric value: 0.00675 Sample-2: 12:00:00 UTC, numeric value: 0.00789 Sample-3: 12:00:00 UTC, numeric value: 0.00421
Poiché la media di questi valori è 0,006283333, la media supera la soglia di 0,005 secondi e l'allarme passa allo stato ALARM. La cronologia degli allarmi registra i valori aggregati che superano la soglia.
Un host che presenta temporaneamente un problema di prestazioni influisce sull'applicazione client responsabile della pubblicazione delle metriche. Di conseguenza, l'host potrebbe non pubblicare datapoint a intervalli equidistanti. In questo caso, i campioni delle 12:00 vengono pubblicati dopo la valutazione dell'allarme.
L'esempio seguente rappresenta tutti i campioni per il timestamp delle 12:00:
Sample-1: 12:00:00 UTC, numeric value: 0.00675 Sample-2: 12:00:00 UTC, numeric value: 0.00789 Sample-3: 12:00:00 UTC, numeric value: 0.00421 Sample-4: 12:00:00 UTC, numeric value: 0.00002 Sample-5: 12:00:00 UTC, numeric value: 0.00007
Quando ricevi un avviso dall'allarme, genera un grafico di CloudWatch per esaminare il comportamento delle metriche. CloudWatch recupera i cinque campioni dalle 12:00:00 alle 12:01:00 UTC e li aggrega con una media di 0,003788. Questo valore è diverso dal valore calcolato in precedenza ed è inferiore alla soglia. Se vengono pubblicati campioni aggiuntivi dopo la valutazione dell'allarme, i datapoint violati non sono visibili nell'intervallo di tempo.
Aumento dell'intervallo di valutazione degli allarmi
Quando si configura Datapoint per allarme, potrebbe verificarsi un intervallo di valutazione più lungo. Quando un allarme genera falsi allarmi a causa di metriche ritardate, l'intervallo di valutazione aumenta e i datapoint ritardati vengono inclusi nella valutazione dell'allarme. L'inclusione di datapoint ritardati riduce il numero di falsi allarmi.
Per aumentare l'intervallo di valutazione, utilizzare una delle seguenti opzioni.
Aumenta il periodo. Nell'esempio seguente, il periodo viene aumentato a 5 minuti:
Spazio dei nomi: Web_App
Metrica: ResponseTime
Dimensione: host,h_04254448d4e964956
Statistica: Average
Soglia: 0,005
ComparisonOperator: GreaterThanThreshold
Periodo: 300 secondi (5 minuti)
Periodo di valutazione: 1
Oppure configura M su N Datapoint per allarme. Nell'esempio seguente, M su N datapoint sono configurati come due su tre datapoint:
Spazio dei nomi: Web_App
Metrica: ResponseTime
Dimensione: host,h_04254448d4e964956
Statistica: Average
Soglia: 0,005
ComparisonOperator: GreaterThanThreshold
Periodo: 60 secondi (1 minuto)
Periodo di valutazione (N): 3
Datapoint per allarme (M): 2
Quando configuri Periodi di valutazione e Datapoint per allarme come valori diversi, viene impostato l’allarme M su N. Datapoint per allarme è impostato su M e Periodo di valutazione su N. Ad esempio, se si configurano quattro datapoint su cinque con un periodo di un minuto, l'intervallo di valutazione è di 5 minuti. Se si configurano tre datapoint su tre con un periodo di 10 minuti, l'intervallo di valutazione è di 30 minuti.
Se configuri Datapoint per allarme con valori diversi, gli allarmi CloudWatch valutano più datapoint. Gli allarmi CloudWatch modificano anche lo stato dell'allarme quando un numero minimo di datapoint viola un set di datapoint. Questo parametro può regolare l'allarme in modo che si attivi su un singolo datapoint o richiedere più datapoint per passare allo stato ALARM.
Per ulteriori informazioni, consulta Create a CloudWatch alarm based on a static threshold e Configuring how CloudWatch alarms treat missing data.
Informazioni correlate
Perché non ho ricevuto una notifica SNS per l'attivazione del mio allarme CloudWatch?
Come posso risolvere i problemi del mio allarme CloudWatch nello stato INSUFFICIENT_DATA?
Perché il mio allarme CloudWatch mi ha inviato una notifica dopo una singola violazione dei dati?
Contenuto pertinente
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 8 mesi fa
- AWS UFFICIALEAggiornata 3 anni fa
- AWS UFFICIALEAggiornata 2 anni fa