跳至內容

如何疑難排解 Aurora PostgreSQL 相容版資料庫執行個體意外重新啟動或容錯移轉的問題?

2 分的閱讀內容
0

我想判斷是什麼原因導致我的 Amazon Aurora PostgreSQL 相容版本資料庫執行個體意外重新啟動或發生容錯移轉,並防止未來再次發生。

簡短說明

Aurora PostgreSQL 相容版資料庫執行個體發生非預期重新啟動,可能是因硬體故障、高資源使用率、複寫延遲或軟體問題造成的。

解決方法

檢查您的資料庫執行個體 Amazon RDS 事件

請完成以下步驟:

  1. 開啟 Amazon Relational Database Service (Amazon RDS) 主控台。
  2. 在導覽窗格中,選擇 Events (事件)。
  3. 尋找資料庫執行個體重新啟動前後發生的事件。

如需更多資訊,請參閱檢視 Amazon RDS 事件使用 Amazon RDS 事件通知

分析資料庫執行個體指標

請完成以下步驟:

  1. 開啟 Amazon RDS console (Amazon RDS 主控台)。
  2. 在導覽窗格中,選擇 Databases (資料庫)。
  3. 選取您的資料庫執行個體。
  4. 選擇 Monitoring (監控) 索引標籤。
  5. 檢視以下指標:<br id=hardline_break/>CPUUtilization,檢查是否持續出現高 CPU 使用率。<br id=hardline_break/>DatabaseConnections,確認連線數未超過配額。<br id=hardline_break/>FreeableMemory,確認可用記憶體充足。<br id=hardline_break/>ReadIOPSWriteIOPS,檢查是否出現異常的 I/O 模式。<br id=hardline_break/> (僅限讀取器執行個體) 在 AuroraReplicaLag,檢查複寫延遲值。
  6. 尋找可能引發重新啟動的異常或峰值。

如需更多資訊,請參閱使用 Amazon CloudWatch 監控 Amazon Aurora 指標

檢閱 CloudWatch Database Insights

請完成以下步驟:

  1. 開啟 Amazon RDS console (Amazon RDS 主控台)。
  2. 在導覽窗格中,選擇 Database Insights
  3. Database Insights 窗格中,從清單選取您的資料庫執行個體。
  4. 分析重新啟動前後出現的主要 SQL 查詢與等待事件。

如需更多資訊,請參閱使用 CloudWatch Database Insights 監控 Amazon Aurora 資料庫

檢查硬體問題

如果您懷疑發生硬體故障,請聯絡 AWS Support 以疑難排解問題。AWS Support 可以檢查是否為主機層級問題導致重新啟動。

檢閱資料庫日誌

請完成以下步驟:

  1. 開啟 Amazon RDS console (Amazon RDS 主控台)。
  2. 在導覽窗格中,選擇 Databases (資料庫)。
  3. 選取您的資料庫執行個體。
  4. 選擇 Logs & events (日誌與事件) 索引標籤。
  5. Logs (日誌) 區段中,下載並檢閱 PostgreSQL 日誌檔案,查看重新啟動前後是否出現錯誤或警告。

如需更多關於 Aurora PostgreSQL 資料庫日誌檔案的資訊,請參閱 Aurora PostgreSQL 資料庫日誌檔案

檢查是否有待處理的維護

請完成以下步驟:

  1. 開啟 Amazon RDS console (Amazon RDS 主控台)。
  2. 在導覽窗格中,選擇 Databases (資料庫)。
  3. 選取您的資料庫執行個體。
  4. 選擇 Maintenance & backups (維護與備份) 索引標籤。
  5. 如果有待處理的維護,請選擇 Apply now (立即套用) 或 Apply at next maintenance window (於下一個維護時段套用)。

建立警示

設定 CloudWatch 警示以監控關鍵指標,例如 CPU 使用率、記憶體使用量和複寫延遲。

最佳化資源使用

採取以下動作:

擴展您的資源

如果持續出現高資源使用率,請升級您的執行個體類型新增 Aurora 複本

讓資料庫保持最新版本

為解決錯誤並提升效能,請定期套用修補程式與版本升級

實作高可用性

對於單一執行個體,請使用多可用區域資料庫執行個體部署。對於 Aurora 叢集,請確保至少有一個讀取器執行個體,讓 Aurora 在寫入器執行個體發生問題時可以提升該執行個體。

如需更多資訊,請參閱 Amazon Aurora 的高可用性

相關資訊

Amazon Aurora 的監控工具

我該如何對導致 Aurora 讀取複本發生延遲並重新啟動的問題進行疑難排解?

使用 Amazon Aurora PostgreSQL 快速容錯移轉

AWS 官方已更新 5 個月前