Quiero determinar qué provocó que mis instancias de base de datos (DB) de la edición compatible con Amazon Aurora PostgreSQL se reiniciaran inesperadamente o se conmutaran por error, y evitar que esto suceda en el futuro.
Descripción corta
Pueden producirse reinicios inesperados en las instancias de base de datos compatibles con Aurora PostgreSQL debido a errores de hardware, uso elevado de recursos, retrasos en la replicación o problemas de software.
Resolución
Comprobación de los eventos de Amazon RDS de tu instancia de base de datos
Sigue estos pasos:
- Abre la consola de Amazon Relational Database Service (Amazon RDS).
- En el panel de navegación, selecciona Eventos.
- Busca los eventos que se produjeron cerca del momento en que se reinició la instancia de base de datos.
Para obtener más información, consulta Visualización de eventos de Amazon RDS y Uso de notificaciones de eventos de Amazon RDS.
Análisis de métricas de las instancias de base de datos
Sigue estos pasos:
- Abre la consola de Amazon RDS.
- En el panel de navegación, selecciona Bases de datos.
- Selecciona tu instancia de base de datos.
- Selecciona la pestaña Supervisión.
- Revisa las siguientes métricas:<br id=hardline_break/>
En CPUUtilization, comprueba si el uso de la CPU es alto y consistente.<br id=hardline_break/>
En DatabaseConnections, comprueba que el recuento de conexiones no supere la cuota.<br id=hardline_break/>
En FreeableMemory, confirma que hay suficiente memoria disponible.<br id=hardline_break/>
En ReadIOPS y WriteIOPS, busca patrones de E/S inusuales.<br id=hardline_break/>
(Solo instancias de lector) En AuroraReplicaLag, comprueba los valores de retraso de replicación.
- Busca anomalías o picos que puedan haber iniciado el reinicio.
Para obtener más información, consulta Supervisión de las métricas de Amazon Aurora con Amazon CloudWatch.
Revisión de CloudWatch Database Insights
Sigue estos pasos:
- Abre la consola de Amazon RDS.
- En el panel de navegación, selecciona Database Insights.
- En el panel Database Insights, selecciona tu instancia de base de datos de la lista.
- Analiza las principales consultas de SQL y espera los eventos en torno al momento del reinicio.
Para obtener más información, consulta Supervisión de las bases de datos de Amazon Aurora con CloudWatch Database Insights.
Comprobación de problemas de hardware
Si sospechas que se trata de un error de hardware, ponte en contacto con AWS Support para solucionar el problema. AWS Support puede comprobar si un problema a nivel de host inició el reinicio.
Revisión de los registros de bases de datos
Sigue estos pasos:
- Abre la consola de Amazon RDS.
- En el panel de navegación, selecciona Bases de datos.
- Selecciona tu instancia de base de datos.
- Selecciona la pestaña Registros y eventos.
- En la sección Registros, descarga y revisa los archivos de registro de PostgreSQL para ver si hay errores o advertencias en el momento del reinicio.
Para obtener más información sobre los archivos de registro de la base de datos de Aurora PostgreSQL, consulta Archivos de registro de bases de datos de Aurora PostgreSQL.
Comprobación de acciones de mantenimiento pendientes
Sigue estos pasos:
- Abre la consola de Amazon RDS.
- En el panel de navegación, selecciona Bases de datos.
- Selecciona tu instancia de base de datos.
- Selecciona la pestaña Mantenimiento y copias de seguridad.
- Si hay un mantenimiento pendiente, selecciona Aplicar ahora o Aplicar en el próximo período de mantenimiento.
Creación de una alarma
Configura las alarmas de CloudWatch para métricas críticas, como el uso de la CPU, el uso de la memoria y el retraso de replicación.
Optimización del uso de los recursos
Haz lo siguiente:
Ampliación de recursos
Si observas un uso elevado de los recursos de forma constante, escala verticalmente tu tipo de instancia o añade réplicas de Aurora.
Actualización regular de la base de datos
Para resolver errores y mejorar el rendimiento, aplica parches y actualizaciones de versión con regularidad.
Implementación de alta disponibilidad
Para una sola instancia, usa despliegues de instancias de base de datos Multi-AZ. En el caso de los clústeres de Aurora, asegúrate de tener al menos una instancia de lector que Aurora pueda promover en caso de tener problemas con la instancia de escritura.
Para obtener más información, consulta Alta disponibilidad de Amazon Aurora.
Información relacionada
Herramientas de supervisión de Amazon Aurora
¿Cómo soluciono los problemas que provocan que mi réplica de lectura de Aurora se retrase y se reinicie?
Conmutación por error rápida con Amazon Aurora PostgreSQL