내용으로 건너뛰기

Aurora PostgreSQL 호환 DB 인스턴스의 예기치 않은 재시작 또는 장애 조치 문제를 해결하려면 어떻게 해야 합니까?

3분 분량
0

Amazon Aurora PostgreSQL 호환 버전 데이터베이스(DB) 인스턴스가 예기치 않게 다시 시작되거나 장애 조치되는 원인을 파악하여 향후 재발을 방지하고 싶습니다.

간략한 설명

하드웨어 장애, 높은 리소스 사용률, 복제 지연 또는 소프트웨어 문제로 인해 Aurora PostgreSQL 호환 DB 인스턴스에서 예기치 않은 재시작이 발생할 수 있습니다.

해결 방법

DB 인스턴스의 Amazon RDS 이벤트 확인

다음 단계를 완료하십시오.

  1. Amazon Relational Database Service(Amazon RDS) 콘솔을 엽니다.
  2. 탐색 창에서 이벤트를 선택합니다.
  3. DB 인스턴스가 다시 시작될 때 쯤에 발생한 이벤트를 찾아봅니다.

자세한 내용은 Amazon RDS 이벤트 보기Amazon RDS 이벤트 알림을 사용한 작업을 참조하십시오.

DB 인스턴스 지표 분석

다음 단계를 완료하십시오.

  1. Amazon RDS 콘솔을 엽니다.
  2. 탐색 창에서 데이터베이스를 선택합니다.
  3. DB 인스턴스를 선택합니다.
  4. 모니터링 탭을 선택합니다.
  5. 다음 지표를 검토하십시오.<br id=hardline_break/> CPUUtilization에서 CPU 사용량이 지속적으로 높은지 확인합니다.<br id=hardline_break/> DatabaseConnections에서 연결 수가 할당량을 초과하지 않는지 확인합니다.<br id=hardline_break/> FreeableMemory에서 사용 가능한 메모리가 충분한지 확인합니다.<br id=hardline_break/> ReadIOPSWriteIOPS에서 비정상적인 I/O 패턴을 찾아봅니다.<br id=hardline_break/> (리더 인스턴스만 해당) AuroraReplicaLag에서 복제 지연 값을 확인합니다.
  6. 재시작의 원인이 될 수 있는 이상 현상이나 스파이크를 찾아봅니다.

자세한 내용은 ](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/monitoring-cloudwatch.html)Amazon CloudWatch로 Amazon Aurora 지표 모니터링[을 참조하십시오.

CloudWatch Database Insights 검토

다음 단계를 완료하십시오.

  1. Amazon RDS 콘솔을 엽니다.
  2. 탐색 창에서 Database Insights를 선택합니다.
  3. Database Insights 창의 목록에서 DB 인스턴스를 선택합니다.
  4. 재시작 시점의 주요 SQL 쿼리와 대기 이벤트를 분석합니다.

자세한 내용은 CloudWatch Database Insights를 사용하여 Amazon Aurora 데이터베이스 모니터링을 참조하십시오.

하드웨어 문제 확인

하드웨어 장애가 의심되는 경우 AWS Support에 문의하여 문제를 해결하십시오. AWS Support는 호스트 수준 문제가 재시작의 원인인지 확인할 수 있습니다.

DB 로그 검토

다음 단계를 완료하십시오.

  1. Amazon RDS 콘솔을 엽니다.
  2. 탐색 창에서 데이터베이스를 선택합니다.
  3. DB 인스턴스를 선택합니다.
  4. 로그 및 이벤트 탭을 선택합니다.
  5. 로그 섹션에서 PostgreSQL 로그 파일을 다운로드하여 재시작 시점의 오류나 경고를 검토합니다.

Aurora PostgreSQL 데이터베이스 로그 파일에 대한 자세한 내용은 Aurora PostgreSQL 데이터베이스 로그 파일을 참조하십시오.

보류 중인 유지 관리 확인

다음 단계를 완료하십시오.

  1. Amazon RDS 콘솔을 엽니다.
  2. 탐색 창에서 데이터베이스를 선택합니다.
  3. DB 인스턴스를 선택합니다.
  4. 유지 관리 및 백업 탭을 선택합니다.
  5. 보류 중인 유지 관리가 있는 경우 지금 적용 또는 다음 유지 관리 기간에 적용을 선택합니다.

경보 생성

CPU 사용률, 메모리 사용량, 복제 지연과 같은 중요 지표에 대한 CloudWatch 경보를 설정합니다.

리소스 사용량 최적화

다음 작업을 수행하십시오.

리소스 규모 조정

리소스 사용률이 지속적으로 높게 나타나는 경우 인스턴스 유형을 스케일 업하거나 Aurora 복제본을 추가하십시오.

데이터베이스를 최신 상태로 유지

버그를 해결하고 성능을 개선하려면 패치와 버전 업그레이드를 정기적으로 적용하십시오.

고가용성 구현

단일 인스턴스의 경우 다중 AZ DB 인스턴스 배포를 사용하십시오. Aurora 클러스터의 경우 라이터 인스턴스 문제 발생 시 Aurora가 승격할 수 있는 리더 인스턴스가 하나 이상 있어야 합니다.

자세한 내용은 Amazon Aurora의 고가용성을 참조하십시오.

관련 정보

Amazon Aurora용 모니터링 도구

Aurora 읽기 전용 복제본이 지연되고 재시작되는 문제를 해결하려면 어떻게 해야 합니까?

Amazon Aurora PostgreSQL을 통한 빠른 장애 조치

AWS 공식업데이트됨 5달 전