Amazon MSK クラスターが修復状態になるのはなぜですか?

所要時間1分
0

修復状態にある Amazon Managed Streaming for Apache Kafka (Amazon MSK) クラスターのトラブルシューティングを行いたいです。

解決策

Amazon MSK クラスターは、サービスが問題に対処するための内部オペレーションを実行しているとき (例:ブローカーが応答しない)、ヒーリング状態になります。ただし、クラスターを使用してデータを生成および利用することはできます。クラスターが ACTIVE 状態に戻るまで、Amazon MSK API または AWS コマンドラインインターフェイス (AWS CLI) の更新操作を実行することはできません。

Amazon MSK の Amazon CloudWatch メトリックスを使用して、クラスターがヒーリング状態にある理由を確認してください。

  1. CloudWatch コンソールを開きます。
  2. ナビゲーションペインで [メトリクス] を選択した後、[すべてのメトリクス] を選択します。
  3. ブラウズ」タブで[AWS/Kafka]を選択します。
  4. メトリクス」で、「クラスター名」を選択します。
  5. 監視するクラスターを選択します。
    **ActiveControllerCount または OfflinePartitionsCount **のメトリックにスパイクが見られる場合は、1つ以上のブローカーに異常があることを示しています。これにより、クラスターがヒーリング状態になった可能性があります。
  6. ブローカーレベルの指標については、「メトリクス」で「ブローカーID」、「クラスター名」を選択します。
  7. リストから、クラスター名とメトリクスが ** CpuUser CpuSystem **のエントリを選択します。すべてのエントリのこれら 2 つの値の合計が、クラスターの平均 60% を超えているかどうかを確認します。その場合、CPU 使用率が高いためにブローカーがヒーリング状態になった可能性があります。CPU 使用率の監視の詳細については、「ベストプラクティス-CPU 使用率の監視」を参照してください。

Amazon MSK クラスターがヒーリング状態になる一般的な理由は次のとおりです。

  • ハードウェア障害のため、ノードまたは Amazon Elastic Block Store (Amazon EBS) ボリュームを交換する必要があります。
  • ノードがブローカーの Amazon MSK パフォーマンス SLA を満たしていないため、最適なパフォーマンスを得るにはノードを交換する必要があります。

Amazon MSK は完全マネージド型サービスであることに注意してください。そのため、ブローカーには自己管理型のワークフローがあり、障害発生時にノードを交換するなどの是正措置を自ら実行します。ブローカーの Amazon EBS ボリュームに異常が発生すると、Amazon MSK はそのボリュームの状態を一定期間監視します。この間にボリュームが正常になっても、アクションは実行されません。この期間を過ぎてもボリュームに異常が続く場合、Amazon MSK は自動的にこのボリュームを置き換えます。Amazon MSK がこれらのアクションを実行すると、クラスターはヒーリング状態になります。ただし、ベストプラクティスに従っている限り、Amazon MSK クラスターの可用性には影響しません。ブローカーがヒーリング状態であっても、クラスターはプロデューサーとコンシューマーからのリクエストを処理できます。

まれに、クラスターが永続的なヒーリング状態になることがあります。この原因としては、次のことが考えられます。

  • クラスターのワークロードは高く、ブローカーの交換は継続的に行われています。この問題を回避するには、プロダクションクラスターのホスティングに** t3.small **インスタンスを使用しないことがベストプラクティスです。**m5 **インスタンスを使用している場合は、クラスターに適したサイズを選択していることを確認してください。クラスターのサイズは、ワークロードと CPU 使用率を監視することで決定できます。また、ブローカーごとのパーティション数が推奨値を超えないようにしてください。
  • Auto Scaling グループは新しいインスタンスを起動できません。これは、内部の問題または依存関係がないことが原因で発生する可能性があります。たとえば、クラスターの作成時に指定された AWS キー管理サービス (AWS KMS) キーにアクセスできなくなる場合があります。
  • まれに発生する内部イベントにより、基盤となる Amazon Elastic Compute Cloud (Amazon EC2) インスタンスの可用性に影響を与えたり、アベイラビリティーゾーンまたは AWS リージョンで Amazon EBS の遅延が発生したりしました。

クラスターが負荷の影響を受けない永続的なヒーリング状態のままである場合は、AWS サポートに連絡してください。

関連情報

クラスターの状態

AWS公式
AWS公式更新しました 1年前
コメントはありません

関連するコンテンツ