跳至内容

如何对 Aurora PostgreSQL 兼容版数据库实例中的意外重启或失效转移问题进行故障排除?

2 分钟阅读
0

我想确定导致 Amazon Aurora PostgreSQL兼容版数据库 (DB) 实例出现意外重启或失效转移的原因,并防止将来再次发生。

简短描述

Aurora PostgreSQL 兼容版数据库实例可能由于硬件故障、高资源利用率、复制延迟或软件问题而发生意外重启。

解决方法

检查数据库实例的 Amazon RDS 事件

完成以下步骤:

  1. 打开 Amazon Relational Database Service (Amazon RDS) 控制台。
  2. 在导航窗格中,选择 Events(事件)。
  3. 查找在数据库实例重启时间点前后发生的事件。

有关更多信息,请参阅查看 Amazon RDS 事件使用 Amazon RDS 事件通知

分析数据库实例指标

完成以下步骤:

  1. 打开 Amazon RDS 控制台
  2. 在导航窗格中,选择 Databases(数据库)。
  3. 选择您的数据库实例。
  4. 选择 Monitoring(监控)选项卡。
  5. 查看以下指标:<br id=hardline_break/> 对于 CPUUtilization,请检查是否持续存在高 CPU 使用率。<br id=hardline_break/> 对于 DatabaseConnections,请验证连接数是否超出配额。<br id=hardline_break/> 对于 FreeableMemory,请确认有足够的内存可用。<br id=hardline_break/> 对于 ReadIOPSWriteIOPS,请查找是否存在异常的 I/O 模式。<br id=hardline_break/> (仅限读取器实例)对于  AuroraReplicaLag,请检查复制延迟值。
  6. 查找可能触发重启的异常情况或峰值。

有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon Aurora 指标

查看 CloudWatch 数据库洞察

完成以下步骤:

  1. 打开 Amazon RDS 控制台
  2. 在导航窗格中,选择 Database Insights(数据库洞察)。
  3. Database Insights(数据库洞察)窗格中,从列表中选择您的数据库实例。
  4. 分析重启时间点前后的主要 SQL 查询和等待事件。

有关更多信息,请参阅使用 CloudWatch 数据库洞察监控 Amazon Aurora 数据库

检查是否存在硬件问题

如果您怀疑存在硬件故障,请联系 AWS Support 对问题进行故障排除。AWS Support 可以检查是否是主机级别的问题触发了重启。

查看数据库日志

完成以下步骤:

  1. 打开 Amazon RDS 控制台
  2. 在导航窗格中,选择 Databases(数据库)。
  3. 选择您的数据库实例。
  4. 选择 Logs & events(日志和事件)选项卡。
  5. Logs(日志)部分中,下载并查看 PostgreSQL 日志文件,查找重启时间点前后的错误或警告。

有关 Aurora PostgreSQL 数据库日志文件的更多信息,请参阅 Aurora PostgreSQL 数据库日志文件

检查是否存在待处理的维护

完成以下步骤:

  1. 打开 Amazon RDS 控制台
  2. 在导航窗格中,选择 Databases(数据库)。
  3. 选择您的数据库实例。
  4. 选择 Maintenance & backups(维护和备份)选项卡。
  5. 如果存在待处理的维护,请选择 Apply now(立即应用)或 Apply at next maintenance window(在下一个维护时段应用)。

创建警报

为 CPU 利用率、内存使用率和复制延迟等关键指标设置 CloudWatch 警报

优化资源使用情况

请执行以下操作:

扩展您的资源

如果资源利用率持续过高,请纵向扩展实例类型添加 Aurora 副本

保持数据库更新

要解决错误并提高性能,请定期应用补丁和版本升级

实现高可用性

对于单个实例,请使用多可用区数据库实例部署。对于 Aurora 集群,请确保您至少有一个读取器实例,以便 Aurora 在写入器实例出现问题时提升该实例。

有关更多信息,请参阅 Amazon Aurora 的高可用性

相关信息

Amazon Aurora 的监控工具

如何对导致 Aurora 只读副本出现延迟和重启的问题进行故障排除?

使用 Amazon Aurora PostgreSQL 进行快速失效转移

AWS 官方已更新 5 个月前