Aurora 글로벌 데이터베이스에서 장애 조치를 수행하려면 어떻게 해야 하며, 장애 조치가 실패한 이유는 무엇입니까?

3분 분량
0

Amazon Aurora PostgreSQL 호환 에디션 글로벌 데이터베이스에서 장애 조치를 수행하는 방법과 장애 조치가 실패한 이유를 알고 싶습니다.

해결 방법

Aurora 글로벌 데이터베이스의 경우 장애 조치를 수행하기 위한 두 가지 옵션이 있습니다.

  • 계획되지 않은 수동 장애 조치(‘분리 및 승격’) - 이 옵션을 사용하면 계획되지 않은 운영 중단을 복구하거나 재해 복구 테스트를 수행할 수 있습니다.
  • 계획된 관리형 장애 조치 - 운영 유지 관리 또는 기타 계획된 운영 절차에 이 옵션을 사용합니다.

계획되지 않은 수동 장애 조치

기본 AWS 리전에서 예상치 못한 운영 중단이 발생한 후 보조 클러스터로 장애 조치를 수행하려면 먼저 다음을 수행합니다.

  1. 운영 중단이 발새한 AWS 리전의 기본 Aurora DB에 대한 DML 문 및 기타 쓰기 작업 실행을 중단합니다.
  2. 보조 AWS 리전에서 새 기본 DB 클러스터로 사용할 Aurora DB 클러스터를 식별합니다. Aurora 글로벌 데이터베이스에 두 개 이상의 보조 AWS 리전이 있는 경우 지연 시간이 가장 적은 보조 클러스터를 선택합니다.
  3. Aurora 글로벌 데이터베이스에서 선택한 보조 DB 클러스터를 제거합니다.

그런 다음 계획되지 않은 수동 장애 조치를 완료하려면 다음을 수행합니다.

  1. 새 엔드포인트를 사용하여 이제 독립형이 된 Aurora DB 클러스터로 모든 쓰기 작업을 전송하도록 애플리케이션을 재구성합니다. Aurora 글로벌 데이터베이스를 생성할 때 제공된 이름을 수락한 경우에는 클러스터의 엔드포인트 문자열에서 -ro를 제거하여 엔드포인트를 변경합니다.
    예를 들어 보조 클러스터가 Aurora 글로벌 데이터에서 분리되면 해당 클러스터의 엔드포인트 my-global.cluster-ro-aabb.us-west-1.rds.amazonaws.commy-global.cluster-aabb.us-west-1.rds.amazonaws.com이 됩니다.
    보조 Aurora DB 클러스터에 지역을 추가하기 시작하면 해당 클러스터는 새 Aurora 글로벌 데이터베이스의 기본 클러스터가 됩니다.
  2. DB 클러스터에 AWS 리전을 추가하여 기본 클러스터에서 보조 클러스터로의 복제 프로세스를 시작합니다.
  3. 필요에 따라 AWS 리전을 더 추가하여 애플리케이션을 지원하는 데 필요한 토폴로지를 재생성합니다.

자세한 내용은 계획되지 않은 중단으로부터 Amazon Aurora 전역 데이터베이스 복구를 참조하세요.

계획된 관리형 장애 조치

Aurora 글로벌 데이터베이스의 계획된 관리형 장애 조치를 시작하려면 다음을 수행합니다.

  1. Amazon RDS 콘솔을 엽니다.
  2. **데이터베이스(Databases)**를 선택하고 장애 조치를 수행할 Aurora 글로벌 데이터베이스를 찾습니다.
  3. 작업(Actions) 메뉴에서 **글로벌 데이터베이스 장애 조치(Fail over global database)**를 선택합니다. 이제 장애 조치가 보류 중이 되고 장애 조치 대상을 선택할 때까지 프로세스가 시작되지 않습니다.
  4. 기본 클러스터로 승격하려는 보조 Aurora DB 클러스터를 선택합니다. 보조 DB 클러스터는 **사용 가능(available)**해야 합니다.
    참고: 보조 DB 클러스터가 두 개 이상인 경우 모든 보조 클러스터의 지연(lag) 시간을 비교하세요. 그런 다음 지연이 가장 적은 클러스터를 선택하세요.
  5. **글로벌 데이터베이스 장애 조치(Fail over global database)**를 선택하여 보조 DB 클러스터 선택을 확인하고 장애 조치 프로세스를 시작합니다.
    데이터베이스 목록의 상태(Status) 열에는 장애 조치 프로세스 중 각 Aurora DB 인스턴스 및 Aurora DB 클러스터의 상태가 표시됩니다.
    콘솔 상단의 상태 표시줄에는 진행 상태가 표시되며 장애 조치 취소(Cancel failover) 옵션이 제공됩니다.
    **장애 조치 취소(Cancel failover)**를 선택하면 장애 조치를 계속하거나 장애 조치 프로세스를 취소할 수 있는 옵션이 제공됩니다.
  6. **닫기(Close)**를 선택하여 장애 조치를 계속하고 화면의 메시지를 닫습니다.

장애 조치가 완료되면 데이터베이스(Databases) 목록에서 Aurora DB 클러스터와 해당 클러스터의 현재 상태를 볼 수 있습니다. 자세한 내용은 Amazon Aurora 전역 데이터베이스에 대한 계획된 관리형 장애 조치 수행을 참조하세요.

AWS Command Line Interface(AWS CLI)로 failover-Global-cluster 명령을 실행하여 계획된 관리형 장애 조치를 시작할 수도 있습니다.

장애 조치 실패 이유

다음 이유 중 하나로 인해 장애 조치가 실패할 수 있습니다.

  • 소스와 대상 간의 복제 지연
  • 가용 영역 장애
  • 컴퓨팅 노드 장애
  • DB 인스턴스 간 네트워킹 문제
  • 스토리지 문제
  • 대규모 이벤트

관련 정보

Amazon Aurora 글로벌 데이터베이스에서 장애 조치 사용

AWS 공식
AWS 공식업데이트됨 일 년 전