為什麼我的 CloudWatch 警報會在其指標沒有任何違規資料點時觸發?

2 分的閱讀內容
0

我的 Amazon CloudWatch 警報變更為 ALARM 狀態。 當我檢查受到監控的指標時,CloudWatch 圖表不會顯示任何違規資料點。但是,警報歷程包含有違規資料點的項目。為什麼我的 CloudWatch 警報會觸發?

簡短描述

CloudWatch 警報會根據指定時刻可用的資料點評估指標。警報歷程會擷取警報在該時間戳記評估的資料點記錄。但是,發生警報評估之後,有可能發佈新的樣本。這些新樣本可能會影響在 CloudWatch 彙總指標資料時計算的值。

解決方法

尋找違規資料點

如果您的 CloudWatch 圖表未顯示任何違規資料點,則這些資料點發生在警報評估時間之外。若要了解發生原因,請參閱下列範例。

在此範例中,警報評估發生時會有 X 樣本數,進而出現彙總的 A 值。新樣本會在稍後發佈,因此會有為相同時間戳記擷取的 Y 樣本數。這會導致不同的 B 彙總值出現。

在此情況下,警報會以下列參數設定:

  • 命名空間: Web_App
  • 指標: ResponseTime
  • 維度:host,h_04254448d4e964956
  • 統計資料: 平均值
  • 閾值: 0.005
  • ComparisonOperator: GreaterThanThreshold
  • 期間: 60 秒(1 分鐘)
  • 評估期: 1

當警報評估 12:00:00 至 12:01:00 UTC 的期間時,指標即會擷取下列的值:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421

這些值的平均值是 0.006283333,其違反了 0.005 秒的閾值。因此,警報會變更為 ALARM 狀態。警報的歷程會擷取超過閾值的彙總值。

主機可能暫時遇到效能問題,其影響了負責發佈指標的用戶端應用程式。因此,主機可能不會以等間距間隔發佈資料點。在此情況下,警報評估發生後發佈了 12:00 的樣本。以下是 12:00 時間戳記的所有樣本:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Sample-4: 12:00:00 UTC, numeric value: 0.00002
Sample-5: 12:00:00 UTC, numeric value: 0.00007

收到此警報的提醒後,使用者即會轉譯 CloudWatch 圖表來檢閱指標行為。CloudWatch 會從 12:00:00 至 12:01:00 UTC 中擷取五個樣本,然後將它們擷取為 0.003788 的平均值。這與先前計算的值不同,並且低於閾值。因此,時間範圍內不會顯示違規資料點,因為警報評估發生後發佈了其他樣本。

增加警報評估的間隔

警報的評估間隔是乘以期間的資料點數量。設定資料點至警報會導致較長的評估間隔。當警報因延遲的指標而產生 False 警報時,增加評估間隔即可讓警報評估考量延遲的資料點。這會減少 False 提醒的數量。

以下兩種方法都可以增加評估間隔:

1.    增加期間。 在下列範例中,期間增加至五分鐘:

  • 命名空間: Web_App
  • 指標: ResponseTime
  • 維度:host,h_04254448d4e964956
  • 統計資料: 平均值
  • 閾值: 0.005
  • ComparisonOperator: GreaterThanThreshold
  • 期間: 300 秒(5 分鐘)
  • 評估期: 1

-或-

2.    設定「N 個之中的 M 個」資料點至警報

在下列範例中,N 個之中的 M 個資料點會設為三個之中的兩個。

  • 命名空間: Web_App
  • 指標: ResponseTime
  • 維度:host,h_04254448d4e964956
  • 統計資料: 平均值
  • 閾值: 0.005
  • ComparisonOperator: GreaterThanThreshold
  • 期間: 60 秒(1 分鐘)
  • 評估期 (N)3
  • 資料點至警報 (M)2

當您將評估期資料點至警報設為不同的值,即會設定「N 個之中的 M 個」警報。資料點至警報M評估期N。例如,如果您在五個有一分鐘期間的資料點之中設定四個,評估間隔即為五分鐘。同樣地,如果您在三個有十分鐘期間的資料點之中設定三個,評估間隔即為三十分鐘。

透過這種方法設定資料點至警報,CloudWatch 警報即可評估更多資料點。只是在最小資料點 (M) 數量違反一組指定資料點 (N) 時,它們也會變更警報狀態。此參數可以將警報調整為在單一資料點觸發,或者要求多個資料點轉換至 ALARM 狀態。

如需詳細資訊,請參閱根據靜態閾值建立 CloudWatch 警報設定 CloudWatch 警報如何處理遺漏的資料


相關資訊

為什麼我的 CloudWatch 警報觸發時,沒有收到 Amazon Simple Notification Service (Amazon SNS) 通知?

為什麼我的 CloudWatch 警報處於 INSUFFICIENT_DATA 的狀態?

為什麼我的 CloudWatch 警示在單一個資料點違規後傳送通知給我?

AWS 官方
AWS 官方已更新 1 年前