如何確定 CloudWatch 警示是否啟動動作?

1 分的閱讀內容
0

即使我可以從 CloudWatch 圖表中看到警示指標超過設定的閾值,我的 Amazon CloudWatch 警示仍未啟動。如何確定我的 CloudWatch 警示已啟動並執行警示動作?

簡短描述

測量時間彙總指標的 CloudWatch 警示 (例如五分鐘平均值) 會在滾動式視窗中持續執行此測量。如果評估週期收集的所有資料點均未超過設定的臨界值,則不會啟動 CloudWatch 警示。

CloudWatch 警示會在警示狀態變更時啟動動作,並維護指定的週期數。如需詳細資訊,請參閱建立 CloudWatch 警示

**重要事項:**對於與 Amazon EC2 Auto Scaling動作相關聯的 CloudWatch 警示,此行為有例外情況。當警示處於指定狀態時,CloudWatch 警示會繼續啟用自動擴展動作。即使沒有狀態變更且警示仍處於該狀態,也會發生此情況。

解決方法

建立警示時,請務必考慮 CloudWatch 用來衡量時間彙總指標的機制。

請考慮降低指標資料臨界值,以確定警示如您預期般運作。

疑難排解範例

在此範例中,會根據平均 CPU 使用率產生警示。警示的臨界值設定為 > 45。它至少連續運行三個週期,每節五分鐘。下列時間彙總指標的評估週期為三個週期,每節 300 秒:

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=41.685}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.846}
  • 06:00:00: data: {Avg=61.123}

這些資料點會產生下列警示狀態:

  • 05:35 ALARM
  • 05:40 ALARM
  • 05:45 ALARM to OK
  • 05:50 OK
  • 05:55 OK
  • 06:00 OK to ALARM

在 05:55 收集的資料點超過 45% 的「平均 CPU 使用率」臨界值。不過,警示會維持在 OK 狀態,且不會在 05:55 啟動動作。發生這種情況的原因是在 05:45:00 收集的資料點 (未超過閾值) 會包含在 05:55 的評估中。但是,五分鐘後,警示會啟動動作,因為警示狀態在 06:00 從 OK 變更為 ALARM。

對於下列時間彙總指標,警示狀態會在 05:35 之後為 ALARM,因為所有資料點都超過 45% 的「平均 CPU 使用率」臨界值。因為沒有狀態變更,因此不會啟動警示動作。

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=45.075}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.847}
  • 06:00:00: data: {Avg=61.123}

相關資訊

Amazon EC2 Auto Scaling 的動態擴展

檢視可用指標

AWS 官方
AWS 官方已更新 2 年前