スキップしてコンテンツを表示

Aurora MySQL 互換 DB インスタンスの予期しない再起動やフェイルオーバーをトラブルシューティングする方法を教えてください。

所要時間2分
0

Amazon Aurora PostgreSQL 互換エディションデータベース (DB) インスタンスが予期せず再起動またはフェイルオーバーした原因を特定し、今後の発生を防ぎたいと考えています。

簡単な説明

Aurora PostgreSQL 互換 DB インスタンスでの予期しない再起動は、ハードウェア障害、リソース使用率の高さ、レプリケーション遅延、またはソフトウェアの問題が原因で発生する可能性があります。

解決策

DB インスタンスの Amazon RDS イベントを確認する

次の手順を実行します。

  1. Amazon Relational Database Service (Amazon RDS) コンソールを開きます。
  2. ナビゲーションペインで [イベント] を選択します。
  3. DB インスタンスが再起動した時刻の前後に発生したイベントを探します。

詳細については、「Amazon RDS イベントの表示」および「Amazon RDS イベント通知の操作」を参照してください。

DB インスタンスメトリクスを分析する

次の手順を実行します。

  1. Amazon RDS コンソールを開きます。
  2. ナビゲーションペインで [データベース] を選択します。
  3. DB インスタンスを選択します。
  4. [モニタリング] タブを選択します。
  5. 以下のメトリクスを確認してください。<br id=hardline_break/> CPUUtilization: CPU 使用率が持続的に高くなっていないか確認します。<br id=hardline_break/> DatabaseConnections: 接続数がクォータを超えていないことを確認します。<br id=hardline_break/> FreeableMemory: 十分なメモリが使用可能であることを確認します。<br id=hardline_break/> ReadIOPS および WriteIOPS: 異常な I/O パターンがないか調べます。<br id=hardline_break/> (リーダーインスタンスのみ) AuroraReplicaLag: レプリケーション遅延の値を確認します。
  6. 再起動を引き起こした可能性のある異常やスパイクを探します。

詳細については、「Amazon CloudWatch を使用した Amazon Aurora メトリクスのモニタリング」を参照してください。

CloudWatch Database Insights を確認する

次の手順を実行します。

  1. Amazon RDS コンソールを開きます。
  2. ナビゲーションペインで [Database Insights] を選択します。
  3. [Database Insights] ペインで、リストから対象の DB インスタンスを選択します。
  4. 再起動前後の上位の SQL クエリと待機イベントを分析します。

詳細については、「CloudWatch Database Insights による Amazon Aurora データベースのモニタリング」を参照してください。

ハードウェアの問題を確認する

ハードウェア障害が疑われる場合は、AWS サポートに連絡して問題のトラブルシューティングを行ってください。AWS サポートは、ホストレベルの問題が再起動を引き起こしたかどうかを確認できます。

DB ログを確認する

次の手順を実行します。

  1. Amazon RDS コンソールを開きます。
  2. ナビゲーションペインで [データベース] を選択します。
  3. DB インスタンスを選択します。
  4. [ログとイベント] タブを選択します。
  5. [ログ] セクションで PostgreSQL のログファイルをダウンロードして、再起動前後のエラーや警告を確認します。

Aurora PostgreSQL データベースログファイルの詳細については、「Aurora PostgreSQL データベースログファイル」を参照してください。

保留中のメンテナンスを確認する

次の手順を実行します。

  1. Amazon RDS コンソールを開きます。
  2. ナビゲーションペインで [データベース] を選択します。
  3. DB インスタンスを選択します。
  4. [メンテナンスとバックアップ] タブを選択します。
  5. 保留中のメンテナンスがある場合は、[今すぐ適用] または [次のメンテナンスウィンドウで適用] を選択します。

アラームを作成する

CPU 使用率、メモリ使用量、レプリケーション遅延などの重要なメトリクスに対して CloudWatch アラームを設定します。

リソース使用量を最適化する

次の操作を実行します。

リソースをスケールする

リソース使用率が常に高い場合は、インスタンスタイプをスケールアップするか、Aurora レプリカを追加してください。

データベースを最新の状態に保つ

バグを解決してパフォーマンスを向上させるには、定期的にパッチを適用し、バージョンアップグレードを行ってください

高可用性を実装する

単一インスタンスの場合は、マルチ AZ DB インスタンスデプロイを使用してください。Aurora クラスターの場合、ライターインスタンスに問題が発生したときに Aurora が昇格させるリーダーインスタンスが 1 つ以上あることを確認してください。

詳細については、「Amazon Aurora の高可用性」を参照してください。

関連情報

Amazon Aurora のモニタリングツール

Aurora リードレプリカが遅れて再起動する原因となる問題のトラブルシューティング方法を教えてください

Amazon Aurora PostgreSQL による高速フェイルオーバー

AWS公式更新しました 5ヶ月前
コメントはありません