为什么我的 Amazon Aurora PostgreSQL 兼容版集群会发生失效转移?

1 分钟阅读
0

我想知道是什么原因导致我的 Amazon Aurora PostgreSQL 兼容版数据库集群发生失效转移。

简短描述

在以下情况下,Aurora PostgreSQL 兼容版会自动将实例失效转移到其中一个集群读取器:

  • 写入器实例的基础设施出现问题。这包括与物理主机的网络连接中断、与集群卷的网络连接中断或物理计算资源出现问题。
  • 无法访问写入器实例。此问题与过大的工作负载有关,后者会导致性能瓶颈和资源争用。
  • 写入器的数据库实例类类型将作为数据库实例垂直扩展活动的一部分进行更改。
  • 在特定的维护时段内,Aurora 写入器实例的底层主机正在进行软件修补、硬件维护或操作系统更新。有关更多信息,请参阅维护 Amazon Aurora 数据库集群
  • 使用实例级别的失效转移选项对实例进行了失效转移。

当集群的写入器无法响应运行状况检查时,集群会根据分配的优先级开始向集群的其中一个读取器进行失效转移。有关详细信息,请参阅使用 Amazon Aurora PostgreSQL 进行失效转移

解决方法

要确定失效转移背后的原因,请查看 Aurora PostgreSQL 兼容版集群的以下日志和指标。

Amazon RDS 事件

要确定计划外中断的根本原因,请查看失效转移期间的所有 Amazon Relational Database Service(Amazon RDS)事件。默认情况下,所有事件都在 UTC/GMT 时间内注册。如果您想将事件存储更长时间,请将 Amazon RDS 事件发送到 Amazon CloudWatch Events。有关更多信息,请参阅创建对 Amazon Aurora 事件触发的规则

Amazon CloudWatch 指标

查看 Aurora PostgreSQL 兼容版集群的 Amazon CloudWatch 指标,以检查高数据库负载是否导致了中断。有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon Aurora 指标。检查以下关键指标(这些指标表示集群/实例的可用性和运行状况)的峰值:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • DiskQueueDepth

增强监控

要为 Amazon Aurora 实例启用增强监控,请参阅设置和开启增强监控

Amazon RDS 提供了关于运行数据库实例的操作系统的指标。您可以使用控制台查看 PostgreSQL 实例的所有系统指标和进程信息。您可以针对各个实例管理要监控的指标,然后根据个人要求自定义控制面板。有关增强监控指标的说明,请参阅增强监控中的操作系统指标

性能详情

性能详情扩展了现有的 Amazon Aurora 监控功能,以说明并帮助您分析集群性能。使用性能详情控制面板,您可以可视化 Aurora PostgreSQL 兼容版集群负载上的数据库负载。您可以按等待时间、SQL 语句、主机或用户筛选负载。

有关更多信息,请参阅使用 Amazon Aurora 上的性能详情监控数据库负载使用性能详情控制面板分析指标

Aurora 数据库日志

在本地数据库中,数据库日志位于文件系统上。Amazon RDS 和 Amazon Aurora 不允许主机访问 Aurora PostgreSQL 兼容版集群的文件系统上的数据库日志。您可以使用 Amazon CloudWatch Logs 来分析日志数据。有关更多信息,请参阅将 Aurora PostgreSQL 日志发布到 Amazon CloudWatch Logs

您也可以使用 AWS 管理控制台查看日志文件。有关更多信息,请参阅查看数据库日志文件

使用 Amazon Aurora PostgreSQL 兼容版进行快速失效转移

要确保在数据库集群中尽快进行失效转移,请参阅使用 Amazon Aurora PostgreSQL 进行快速失效转移

使用 Aurora PostgreSQL 兼容版的集群缓存管理功能在失效转移后进行快速恢复

要确保写入器数据库实例在失效转移后进行快速恢复,请参阅使用 Aurora PostgreSQL 的集群缓存管理功能在失效转移后进行快速恢复


相关信息

Amazon Aurora 的高可用性

监控 Amazon Aurora 集群中的指标

Amazon RDS 事件类别和事件消息

AWS 官方
AWS 官方已更新 1 年前