모니터링되는 지표에 위반 데이터 포인트가 없는데 CloudWatch 경보가 시작된 이유는 무엇인가요?

4분 분량
0

Amazon CloudWatch 경보가 ALARM 상태로 변경되었습니다. 모니터링되는 지표를 확인하면 CloudWatch 그래프에 위반 데이터 포인트가 표시되지 않습니다. 하지만 경보 기록에는 데이터 포인트 위반이 포함된 항목이 포함되어 있습니다. CloudWatch 경보가 시작된 원인을 알고 싶습니다.

간략한 설명

CloudWatch 경보는 즉시 사용할 수 있는 데이터 포인트를 기반으로 지표를 평가합니다. 경보 기록에는 해당 타임스탬프에서 경보가 평가한 데이터 포인트의 기록이 표시됩니다. 하지만 CloudWatch는 경보 평가 후 새 샘플을 게시할 수 있습니다. 새 샘플은 CloudWatch가 지표 데이터를 집계할 때 계산되는 값에 영향을 미칠 수 있습니다.

해결 방법

침해 데이터 포인트 찾기

CloudWatch 그래프에 위반 데이터 포인트가 표시되지 않는 경우 데이터 포인트는 경보 평가 시간 외에 발생한 것입니다.

예를 들어 경보 평가가 발생하면 X개의 샘플을 사용할 수 있습니다. 예제의 수가 X인 경우 집계 값은 A입니다. 그런 다음 새 샘플이 게시됩니다. 따라서 동일한 타임스탬프에 대해 Y개의 샘플이 검색됩니다. 샘플 수가 Y인 경우 집계 값은 B가 됩니다.

다음 예제에서는 이전 파라미터로 경보를 구성합니다.

  • 네임스페이스: Web_App
  • 지표: ResponseTime
  • 차원: host,h_04254448d4e964956
  • 통계: 평균
  • 임곗값: 0.005
  • ComparisonOperator: GreaterThanThreshold
  • 기간: 60초(1분)
  • 평가 기간: 1

경보가 12:00:00~12:01:00 UTC의 기간을 평가할 때 지표는 다음 값을 검색합니다.

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421

이러한 값의 평균이 0.006283333이므로 평균이 임곗값인 0.005초를 위반하고 경보가 ALARM 상태로 변경됩니다. 경보 내역에는 임곗값을 초과하는 집계 값이 표시됩니다.

일시적으로 성능 문제가 발생하는 호스트는 지표 게시를 담당하는 클라이언트 애플리케이션에 영향을 미칩니다. 따라서 호스트가 동일한 간격으로 데이터 포인트를 게시하지 못할 수 있습니다. 이 경우 경보 평가가 수행된 후 12:00에 대한 샘플이 게시됩니다.

다음 예제는 12:00 타임스탬프의 모든 샘플을 나타냅니다.

Sample-1: 12:00:00 UTC, numeric value: 0.00675  
Sample-2: 12:00:00 UTC, numeric value: 0.00789  
Sample-3: 12:00:00 UTC, numeric value: 0.00421  
Sample-4: 12:00:00 UTC, numeric value: 0.00002  
Sample-5: 12:00:00 UTC, numeric value: 0.00007

경보로부터 알림을 받으면 CloudWatch 그래프를 생성하여 지표 동작을 검토하세요. CloudWatch는 12:00:00~12:01:00 UTC의 샘플 5개를 검색하여 평균 0.003788로 집계합니다. 따라서 값이 이전에 계산된 값에서 변경되어 임곗값보다 낮습니다. 경보 평가가 발생한 후 추가 샘플이 게시되면 해당 시간 범위에서 위반 데이터 포인트를 볼 수 없습니다.

경보 평가 간격 늘리기

경보를 알릴 데이터 포인트를 구성할 때 평가 간격이 더 길어질 수 있습니다. 지연된 지표로 인해 경보가 잘못된 경고를 생성하면 평가 간격이 길어지고 지연된 데이터 포인트가 경보 평가에 포함됩니다. 지연된 데이터 포인트가 포함되면 잘못된 알림의 수가 줄어듭니다.

평가 간격을 늘리려면 다음 옵션 중 하나를 사용하세요.

기간을 늘립니다. 다음 예제에서는 기간이 5분으로 늘어났습니다.

네임스페이스: Web_App
지표: ResponseTime
차원: host,h_04254448d4e964956
통계: 평균
임곗값: 0.005
ComparisonOperator: GreaterThanThreshold
기간: 300초(5분)
평가 기간: 1

또는 경보를 알릴 데이터 포인트 N개 중 M개를 구성합니다. 다음 예제에서는 N개 중 M개의 데이터 포인트가 3개 중 2개로 구성됩니다.

네임스페이스: Web_App
지표: ResponseTime
차원: host,h_04254448d4e964956
통계: 평균
임곗값: 0.005
ComparisonOperator: GreaterThanThreshold
기간: 60초(1분)
평가 기간(N): 3
경보를 알릴 데이터 포인트(M): 2

평가 기간경보를 알릴 데이터 포인트를 서로 다른 값으로 구성하면 경보 N개 중 M개가 설정됩니다. 경보를 알릴 데이터 포인트M으로 설정되고 평가 기간N으로 설정됩니다. 예를 들어 데이터 포인트 5개 중 4개를 1분의 기간으로 구성하면 평가 간격은 5분이 됩니다. 데이터 포인트 3개 중 3개를 10분의 기간으로 구성하는 경우 평가 간격은 30분입니다.

경보를 알릴 데이터 포인트를 서로 다른 값으로 구성하면 CloudWatch 경보가 더 많은 데이터 포인트를 평가합니다. 또한 CloudWatch 경보는 최소 수의 데이터 포인트가 데이터 포인트 세트를 위반할 때 경보 상태를 변경합니다. 파라미터는 단일 데이터 포인트에서 활성화되도록 경보를 조정하거나 ALARM 상태로 전환하기 위해 여러 데이터 포인트가 필요할 수 있습니다.

자세한 내용은 정적 임곗값을 기반으로 하는 CloudWatch 경보 생성CloudWatch 경보가 누락된 데이터를 처리하는 방법 구성을 참조하세요.

관련 정보

CloudWatch 경보 트리거에 대한 SNS 알림을 받지 못한 이유는 무엇인가요?

INSUFFICIENT_DATA 상태에서 CloudWatch 경보 문제를 해결하려면 어떻게 해야 하나요?

데이터 포인트가 하나라도 위반된 후 CloudWatch 경보가 알림을 보낸 이유는 무엇인가요?

AWS 공식
AWS 공식업데이트됨 7달 전