Quero saber o que causa eventos de failover em meu cluster de banco de dados da edição do Amazon Aurora compatível com PostgreSQL.
Breve descrição
Quando um dos seguintes eventos ocorre, o Aurora compatível com PostgreSQL faz o failover automaticamente para uma instância de leitor:
- Há problemas de infraestrutura com a instância do gravador. Isso inclui perda de conectividade de rede com o host físico ou o volume do cluster, ou problemas com os recursos de computação física.
- A instância do gravador não está acessível. Esse problema ocorre quando há um workload excessivo que causa gargalos de desempenho e contenção de recursos.
- O tipo de classe da instância de banco de dados do gravador muda devido à escalabilidade vertical da instância de banco de dados.
- O host subjacente do gravador passa por patches de software, manutenção de hardware ou atualização do sistema operacional (SO) durante uma janela de manutenção específica. Para obter mais informações, consulte Manutenção de um cluster de banco de dados do Amazon Aurora.
- A instância usa a opção de failover no nível da instância.
Resolução
Quando o gravador do cluster não responde às verificações de integridade, o cluster inicia um failover para um dos gravadores com base na prioridade. Para identificar o que causou o failover, verifique os seguintes logs e métricas em seu cluster compatível com o PostgreSQL do Aurora.
Eventos do Amazon RDS
Para identificar a causa de uma interrupção não planejada, veja todos os eventos do Aurora do período de failover. É possível ver os eventos das últimas 2 semanas. Para armazenar eventos por um período de tempo mais longo, envie os eventos do Aurora para o Amazon EventBridge. Para obter mais informações, consulte Criar uma regra que é acionada em um evento do Amazon Aurora.
CloudWatch Metrics
Para verificar se a alta carga de banco de dados causou o failover, use o Amazon CloudWatch para visualizar as métricas do seu cluster de banco de dados do Aurora.
Verifique se há picos nas seguintes métricas que mostram a disponibilidade e o status de integridade do seu cluster:
- DatabaseConnections
- CPUUtilization
- FreeableMemory
- DiskQueueDepth
- StorageNetworkThroughput
Monitoramento aprimorado
Use o Monitoramento aprimorado para visualizar as métricas do sistema operacional em tempo real. Para ativar o Monitoramento aprimorado em suas instâncias do Amazon Aurora, consulte Configurar e habilitar o monitoramento aprimorado. Para ver uma lista de métricas do sistema operacional que é possível visualizar, consulte Métricas do sistema operacional no monitoramento avançado.
Insights de Performance
Use o Insights de Performance para visualizar a carga do banco de dados em seu cluster compatível com o PostgreSQL do Aurora. É possível filtrar a carga por esperas, declarações SQL, hosts ou usuários. Para obter mais informações, consulte Análise de métricas usando o painel do Insights de Performance.
O Insights de Performance mostra as consultas que mais contribuem para a carga do banco de dados, como uma consulta que usa 99% da carga do banco de dados.
O Insights de Performance te ajuda a identificar se os seguintes problemas podem afetar o desempenho do cluster de banco de dados:
- Operações de E/S, como IO:DataFileRead para leituras de disco
- Bloqueio de contenção, como Lock:transactionid e Lock:Relation
- Problemas de gerenciamento de buffer, como BufferPin:BufferPin
- Atrasos na comunicação com o cliente, como Client:ClientRead e Client:ClientWrite
Importante: o Insights de Performance chegará ao fim de sua vida útil em 30 de junho de 2026. É possível fazer o upgrade para o modo Avançado do Database Insights antes de 30 de junho de 2026. Se você não fizer o upgrade, os clusters de banco de dados que usam o Insights de Performance usarão como padrão o modo Padrão do Database Insights. Somente o modo Avançado do Database Insights oferecerá suporte a planos de execução e análises sob demanda. Se seus clusters usarem como padrão o modo Padrão, talvez você não consiga usar esses atributos no console. Para ativar o modo Avançado, consulte Ativação do modo Avançado do Database Insights para Amazon RDS. Além disso, consulte Ativação do modo Avançado do Database Insights para Amazon Aurora.
Logs do banco de dados do Aurora
Em bancos de dados on-premises, os logs do banco de dados residem no sistema de arquivos. Como não é possível acessar o host dos logs do banco de dados no sistema de arquivos, publique seus logs no Amazon CloudWatch Logs.
Também é possível usar o console do Amazon RDS para assistir a um arquivo de log do banco de dados.
Failover rápido com o Aurora PostgreSQL
Para mudar rapidamente as operações para uma instância de réplica íntegra após um failover, configure sua aplicação para um failover rápido.
Recuperação rápida após o failover com gerenciamento de cache de cluster no Aurora compatível com PostgreSQL
Para uma recuperação rápida da sua instância de banco de dados em seu cluster de banco de dados, use o gerenciamento de cache de cluster compatível com o Aurora PostgreSQL.
RDS Proxy para melhorar o desempenho do failover
Use o Amazon RDS Proxy para manter um grupo aberto de conexões com as instâncias de banco de dados. Durante os failovers do banco de dados, o RDS Proxy continua aceitando conexões no mesmo endereço IP e direciona automaticamente as conexões para a nova instância de banco de dados primária. Quando a instância de banco de dados original fica indisponível, o RDS Proxy se conecta ao banco de dados em espera, mas não descarta as conexões ociosas da aplicação.
Informações relacionadas
Alta disponibilidade do Amazon Aurora
Monitorar métricas em um cluster do Amazon Aurora
Categorias de eventos e mensagens de eventos do Amazon RDS para o Aurora