Por que a minha instância de banco de dados do Amazon RDS reiniciou, foi recuperada ou fez failover?

10 minuto de leitura
0

Quero saber a causa-raiz da reinicialização, recuperação ou failover da minha instância do bando de dados do Amazon Relational Database Service (Amazon RDS).

Breve descrição

A instância de banco de dados do Amazon RDS executa automaticamente uma reinicialização nas seguintes condições:

Quando a instância de banco de dados apresenta possíveis problemas e não responde às verificações de integridade do RDS, o RDS inicia automaticamente uma recuperação mono-AZ para a implantação mono-AZ e um failover multi-AZ para a implantação multi-AZ. Em seguida, a instância de banco de dados é reiniciada para que seja possível retomar as operações do banco de dados o mais rápido possível sem intervenção administrativa.

Resolução

Para identificar a causa da interrupção, verifique os seguintes logs e métricas para a instância de banco de dados do RDS.

Eventos do Amazon RDS

Para identificar a causa-raiz de uma interrupção não planejada na instância, visualize todos os eventos do Amazon RDS nas últimas 24 horas. Todos os eventos são registrados no horário UTC/GMT por padrão. Para armazenar eventos por mais tempo, envie os eventos do Amazon RDS para o Amazon CloudWatch Events. Para obter mais informações, consulte Criar uma regra que aciona um evento do Amazon RDS. Quando a instância for reiniciada, uma das seguintes mensagens nas notificações de eventos do RDS é exibida:

  • A instância do RDS foi modificada pelo cliente: essa mensagem de evento do RDS indica que o failover foi iniciado por uma modificação da instância do RDS.

  • Aplicação de modificação à classe da instância do banco de dados: essa mensagem de evento do RDS indica que o tipo de classe da instância de banco de dados foi alterado.

    • As implantações mono-AZ ficam indisponíveis por alguns minutos durante essa operação de escalabilidade.
    • As implantações multi-AZ não estão disponíveis durante o tempo necessário para a instância fazer failover. A duração geralmente é cerca de 60 segundos. Isso ocorre porque o banco de dados em espera é atualizado antes que o banco de dados recém-dimensionado passe por um failover. Em seguida, o banco de dados é reiniciado e o mecanismo executa a recuperação para garantir que o banco de dados permaneça em um estado consistente.
  • O usuário solicitou um failover da instância de banco de dados: essa mensagem indica que uma reinicialização da instância de banco de dados foi iniciada manualmente usando a opção Reinicialização ou Reinicialização com failover.

  • O host primário da instância multi-AZ do RDS não está íntegro: isso indica um problema transitório de hardware subjacente que levou à perda de comunicação com a instância primária. Esse problema pode ter deixado a instância não íntegra, porque o sistema de monitoramento do RDS não pôde se comunicar com a instância do RDS para realizar as verificações de integridade.

  • O host primário da instância multi-AZ do RDS está inacessível devido à perda de conectividade de rede: isso indica que o failover multi-AZ e a reinicialização da instância do banco de dados foram causados por um problema de rede transitório que afetou o host primário da implantação multi-AZ. O sistema de monitoramento interno detectou esse problema e iniciou um failover.

  • A instância primária multi-AZ do RDS está ocupada e não responde, a ativação da instância multi-AZ foi iniciada ou a ativação da instância multi-AZ foi concluída: o log de eventos mostra essas mensagens nas seguintes situações:

    • A instância de banco de dados primária não responde.
    • Uma crise de memória depois de um consumo excessivo de memória no banco de dados impediu que o sistema de monitoramento do RDS entrasse em contato com o host subjacente. Portanto, o banco de dados é reiniciado pelo sistema de monitoramento como uma medida proativa.
    • A instância de banco de dados teve problemas de rede intermitentes com o host subjacente.
    • A instância sofreu uma carga de banco de dados. Nesse caso, é possível notar picos nas métricas CPUUtilization, DatabaseConnections, métricas de IOPS e detalhes de throughput do CloudWatch. Também é possível notar o esgotamento da Freeablememory.
  • Instância de banco de dados corrigida: essa mensagem indica que a instância de banco de dados passou por uma atualização de versão secundária durante uma janela de manutenção porque a configuração Atualização de versão secundária está ativada na instância.

Métricas do CloudWatch

Visualize as métricas do CloudWatch para sua instância do Amazon RDS para verificar se o problema de carga do banco de dados causou a interrupção. Para obter mais informações, consulte Monitoramento de métricas do Amazon RDS com o Amazon CloudWatch. Verifique se há picos nas seguintes métricas principais que indicam a disponibilidade e o status de integridade da sua instância do RDS:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • WriteIOPS
  • ReadIOPS
  • ReadThroughput
  • WriteThroughput
  • DiskQueueDepth

Enhanced Monitoring

O Amazon RDS entrega as métricas do Enhanced Monitoring em sua conta do Amazon CloudWatch Logs. Isso fornece métricas em tempo real para o sistema operacional no qual sua instância de banco de dados é executada. Você pode visualizar todas as métricas do sistema e informações de processos das suas instâncias de banco de dados no console.

Você pode definir a granularidade do recurso Enhanced Monitoring como 1, 5, 10, 15, 30 ou 60.

Para ativar o Enhanced Monitoring para sua instância do Amazon RDS, consulte Configuração e ativação do Enhanced Monitoring.

Performance Insights

O painel do Performance Insights contém informações relacionadas à performance do banco de dados que podem ajudá-lo a analisar e solucionar problemas de performance. Também é possível identificar as consultas e eventos de espera que consomem recursos excessivos na instância de banco de dados. O Performance Insights coleta dados no nível do banco de dados e exibe os dados no painel do Performance Insights. Para obter mais informações, consulte Monitoramento da carga do banco de dados com o Performance Insights no Amazon RDS. Quando um aumento no consumo de recursos é gerado do lado do aplicativo, use a ID SQL de suporte do painel do Performance Insights e corresponda-o com a respectiva consulta. É uma melhor prática usar essas informações para ajustar o desempenho da consulta e otimizar seu workload usando a orientação do seu DBA:

  1. Abra o console do Amazon RDS.
  2. No painel de navegação, escolha Performance Insights.
  3. Na página Performance Insights, selecione a instância de banco de dados. Você pode visualizar o painel do Performance Insights para essa instância de banco de dados.
  4. Selecione o período de tempo em que o problema ocorreu.
  5. Escolha a guia SQL superior.
  6. Escolha o ícone de configurações e ative o ID de suporte.
  7. Escolha Salvar.

Logs do banco de dados do RDS

Para solucionar a causa da interrupção da instância de banco de dados do Amazon RDS, é possível visualizar, baixar ou assistir arquivos de log do banco de dados usando o console do Amazon RDS ou as operações de API do Amazon RDS. Também é possível consultar os arquivos de log do banco de dados que estão carregados nas tabelas do banco de dados. Para obter mais informações, consulte Monitoramento de arquivos de log do Amazon RDS.

Tenha em mente as seguintes melhores práticas ao lidar com interrupções de instâncias do RDS:


Informações relacionadas

Melhores práticas do Amazon RDS

Que fatores influenciam no meu tempo de inatividade ou na minha performance de banco de dados no Amazon RDS?

Por que ocorreu failover da minha instância de banco de dados do Amazon RDS?

Como minimizo o tempo de inatividade durante a manutenção obrigatória do Amazon RDS?

Como verifico consultas de execução e problemas de diagnóstico de consumo de recursos do meu Amazon RDS ou a instância de banco de dados de edição compatível com o Amazon Aurora PostgreSQL?

AWS OFICIAL
AWS OFICIALAtualizada há 2 anos