我想确定导致 Amazon Aurora PostgreSQL兼容版数据库 (DB) 实例出现意外重启或失效转移的原因,并防止将来再次发生。
Aurora PostgreSQL 兼容版数据库实例可能由于硬件故障、高资源利用率、复制延迟或软件问题而发生意外重启。
完成以下步骤:
有关更多信息,请参阅查看 Amazon RDS 事件和使用 Amazon RDS 事件通知。
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon Aurora 指标。
有关更多信息,请参阅使用 CloudWatch 数据库洞察监控 Amazon Aurora 数据库。
如果您怀疑存在硬件故障,请联系 AWS Support 对问题进行故障排除。AWS Support 可以检查是否是主机级别的问题触发了重启。
有关 Aurora PostgreSQL 数据库日志文件的更多信息,请参阅 Aurora PostgreSQL 数据库日志文件。
为 CPU 利用率、内存使用率和复制延迟等关键指标设置 CloudWatch 警报。
请执行以下操作:
如果资源利用率持续过高,请纵向扩展实例类型或添加 Aurora 副本。
要解决错误并提高性能,请定期应用补丁和版本升级。
对于单个实例,请使用多可用区数据库实例部署。对于 Aurora 集群,请确保您至少有一个读取器实例,以便 Aurora 在写入器实例出现问题时提升该实例。
有关更多信息,请参阅 Amazon Aurora 的高可用性。
Amazon Aurora 的监控工具
如何对导致 Aurora 只读副本出现延迟和重启的问题进行故障排除?
使用 Amazon Aurora PostgreSQL 进行快速失效转移