為什麼我的 CloudWatch 警報會在其指標沒有任何違規資料點時觸發?
我的 Amazon CloudWatch 警報變更為 ALARM 狀態。 當我檢查受到監控的指標時,CloudWatch 圖表不會顯示任何違規資料點。但是,警報歷程包含有違規資料點的項目。為什麼我的 CloudWatch 警報會觸發?
簡短描述
CloudWatch 警報會根據指定時刻可用的資料點評估指標。警報歷程會擷取警報在該時間戳記評估的資料點記錄。但是,發生警報評估之後,有可能發佈新的樣本。這些新樣本可能會影響在 CloudWatch 彙總指標資料時計算的值。
解決方法
尋找違規資料點
如果您的 CloudWatch 圖表未顯示任何違規資料點,則這些資料點發生在警報評估時間之外。若要了解發生原因,請參閱下列範例。
在此範例中,警報評估發生時會有 X 樣本數,進而出現彙總的 A 值。新樣本會在稍後發佈,因此會有為相同時間戳記擷取的 Y 樣本數。這會導致不同的 B 彙總值出現。
在此情況下,警報會以下列參數設定:
- 命名空間: Web_App
- 指標: ResponseTime
- 維度:host,h_04254448d4e964956
- 統計資料: 平均值
- 閾值: 0.005
- ComparisonOperator: GreaterThanThreshold
- 期間: 60 秒(1 分鐘)
- 評估期: 1
當警報評估 12:00:00 至 12:01:00 UTC 的期間時,指標即會擷取下列的值:
Sample-1: 12:00:00 UTC, numeric value: 0.00675 Sample-2: 12:00:00 UTC, numeric value: 0.00789 Sample-3: 12:00:00 UTC, numeric value: 0.00421
這些值的平均值是 0.006283333,其違反了 0.005 秒的閾值。因此,警報會變更為 ALARM 狀態。警報的歷程會擷取超過閾值的彙總值。
主機可能暫時遇到效能問題,其影響了負責發佈指標的用戶端應用程式。因此,主機可能不會以等間距間隔發佈資料點。在此情況下,警報評估發生後發佈了 12:00 的樣本。以下是 12:00 時間戳記的所有樣本:
Sample-1: 12:00:00 UTC, numeric value: 0.00675 Sample-2: 12:00:00 UTC, numeric value: 0.00789 Sample-3: 12:00:00 UTC, numeric value: 0.00421 Sample-4: 12:00:00 UTC, numeric value: 0.00002 Sample-5: 12:00:00 UTC, numeric value: 0.00007
收到此警報的提醒後,使用者即會轉譯 CloudWatch 圖表來檢閱指標行為。CloudWatch 會從 12:00:00 至 12:01:00 UTC 中擷取五個樣本,然後將它們擷取為 0.003788 的平均值。這與先前計算的值不同,並且低於閾值。因此,時間範圍內不會顯示違規資料點,因為警報評估發生後發佈了其他樣本。
增加警報評估的間隔
警報的評估間隔是乘以期間的資料點數量。設定資料點至警報會導致較長的評估間隔。當警報因延遲的指標而產生 False 警報時,增加評估間隔即可讓警報評估考量延遲的資料點。這會減少 False 提醒的數量。
以下兩種方法都可以增加評估間隔:
1. 增加期間。 在下列範例中,期間增加至五分鐘:
- 命名空間: Web_App
- 指標: ResponseTime
- 維度:host,h_04254448d4e964956
- 統計資料: 平均值
- 閾值: 0.005
- ComparisonOperator: GreaterThanThreshold
- 期間: 300 秒(5 分鐘)
- 評估期: 1
-或-
2. 設定「N 個之中的 M 個」資料點至警報。
在下列範例中,N 個之中的 M 個資料點會設為三個之中的兩個。
- 命名空間: Web_App
- 指標: ResponseTime
- 維度:host,h_04254448d4e964956
- 統計資料: 平均值
- 閾值: 0.005
- ComparisonOperator: GreaterThanThreshold
- 期間: 60 秒(1 分鐘)
- 評估期 (N): 3
- 資料點至警報 (M): 2
當您將評估期和資料點至警報設為不同的值,即會設定「N 個之中的 M 個」警報。資料點至警報是 M,評估期是 N。例如,如果您在五個有一分鐘期間的資料點之中設定四個,評估間隔即為五分鐘。同樣地,如果您在三個有十分鐘期間的資料點之中設定三個,評估間隔即為三十分鐘。
透過這種方法設定資料點至警報,CloudWatch 警報即可評估更多資料點。只是在最小資料點 (M) 數量違反一組指定資料點 (N) 時,它們也會變更警報狀態。此參數可以將警報調整為在單一資料點觸發,或者要求多個資料點轉換至 ALARM 狀態。
如需詳細資訊,請參閱根據靜態閾值建立 CloudWatch 警報和設定 CloudWatch 警報如何處理遺漏的資料。
相關資訊
為什麼我的 CloudWatch 警報觸發時,沒有收到 Amazon Simple Notification Service (Amazon SNS) 通知?
相關內容
- 已提問 1 年前lg...
- AWS 官方已更新 2 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 2 年前