Amazon OpenSearch サービスのドメインが停滞しており、アップグレードプロセスを完了できません。
簡単な説明
OpenSearch Service は、ドメインのアップグレードにブルー/グリーンデプロイプロセスを使用します。このプロセス中、シャードの再配置に関する問題が原因でドメインが Modifying ステータスから移行できない可能性があります。または、ドメインがアップグレード検証チェックに合格できない可能性もあります。
注: アップグレードの開始後は、キャンセルするできません。アップグレードが停滞した場合、AWS が根本的な問題を解決するまでは、プロセスを完了できません。
解決策
シャードの再配置中にドメインが Modifying ステータスから移行できない
ブルー/グリーンデプロイ中に、OpenSearch Service は既存のノードから新しいノードにデータをコピーします。シャードの再配置プロセスが停滞した場合、ドメインは Modifying ステータスから移行できません。
このエラーは、次の原因で発生します。
- シャードサイズが 50 GB を上回るほど大規模であり、シャードのコピー時間が長くなる。
- インデックスまたは検索の負荷が原因で、クラスターのリソース使用率が増加する。
- 新しいノードにシャードをコピーするためのディスク容量が不足している。
- シャード数のクォータに達した。
これらの問題をトラブルシューティングするには、Amazon CloudWatch を使用して OpenSearch Service メトリクス FreeStorageSpace、ClusterStatus、ClusterIndexWritesBlocked を参照し、ディスク容量の問題やクラスターの高負荷が発生していないか確認します。
特定した問題に応じて、次の手順を実行します。
インデックスを削除する方法の詳細については、OpenSearch のウェブサイトで DeleteIndex、Delete Index API を参照してください。
シャードの移行プロセスを監視するには、次のコマンドを実行します。
GET _cat/recovery?active_only=true
コマンド出力には、アクティブなシャードの復旧ステータス、進行状況、復旧時間、障害ステータス、データ転送サイズが表示されます。シャードが進行していないか、表示される出力が空白である場合は、アップグレードプロセスに問題がある可能性があります。アップグレードの問題をトラブルシューティングするには、AWS サポートケースを作成してください。
シャードサイズが 50 GB を超える場合は、データのインデックスを再作成し、より多くの小容量のシャードを作成します。手順については、OpenSearch のウェブサイトで「データの再インデックス」を参照してください。
上記のトラブルシューティングアクションで問題が解決しない場合は、AWS サポートケースを作成してください。
ドメインがアップグレード検証チェックに合格できない
アップグレード中、OpenSearch Service は、ドメイン構成が更新後のバージョンと互換性があるかどうかを検証します。この検証に合格できない場合、ドメインは Modifying ステータスになり、移行できません。
この問題を解決するには、ドメインの説明を参照し、障害が発生したアクティビティや、検証に関連するエラーメッセージがないか確認します。エラーに応じたトラブルシューティング手順を完了した後、構成変更を再試行します。
アップグレードの問題を防ぐためのベストプラクティス
次の手順を実行します。
- 大規模なシャードを再インデックスすることで、個別のシャードサイズを 50 GB 未満にします。
- 構成に応じた、適切なシャード数を指定し、シャード戦略のベストプラクティスに準拠できるようにします。
- クラスターの使用率が低い時間帯にアップグレードを開始します。
- まず、本番以外のドメインで更新をテストします。
- アップグレード中に増加した負荷に対応できる十分なCPU、メモリ、およびディスク容量がドメインに用意されていることを確認します。アップグレードを開始する前に、リソースの使用状況を監視します。
- 構成変更を適用する前に、テストします。
関連情報
OpenSearch Service ドメインが "Modifying" ステータスから移行しない原因を教えてください