Amazon SageMaker エンドポイントでの高遅延をトラブルシューティングする方法を教えてください。

所要時間1分
0

Amazon SageMaker エンドポイントでの高遅延をトラブルシューティングしたいです。

簡単な説明

SageMaker のエンドポイントでは、次の種類の遅延が発生する可能性があります。

  • モデル遅延 - モデルが推論リクエストに応答するのにかかる時間。モデル遅延には、リクエストを送信してから応答を取得するためのローカル通信時間が含まれます。モデル遅延には、モデルコンテナ内の推論完了時間も含まれます。
  • オーバーヘッド遅延 - SageMaker が呼び出しリクエストに応答するまでにかかる時間。モデル遅延は含まれていません。
  • ネットワーク遅延 - リクエストがクライアントと SageMaker エンドポイントの間を行き来するのにかかる時間。ネットワーク遅延は AWS インフラストラクチャの外部で発生します。

お使いの SageMaker エンドポイントが単一のモデルに対応している場合、次の Amazon CloudWatch メトリクスを利用できます。

  • モデル遅延
  • オーバーヘッド遅延

お使いの SageMaker エンドポイントがマルチモデルエンドポイントに対応している場合、次の CloudWatch メトリクスを利用できます。

  • モデル読み込み待機時間 - このメトリクスは、推論が実行される前に、呼び出しリクエストがターゲットモデルのダウンロードまたは読み込みに要する遅延を示します。
  • モデルのダウンロード時間 - このメトリクススは、Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかる時間を示します。
  • モデル読み込み時間 - このメトリクスは、モデルがコンテナに読み込まれるまでにかかる時間を示します。
  • モデルキャッシュヒット - このメトリクスは、モデルがロードされたエンドポイントに送信された InvokeEndpoint リクエストの数を示します。

注: マルチモデルエンドポイントは、その存続期間にわたり、モデルをロードおよびアンロードします。LoadedModelCount CloudWatch メトリクススを使用すると、エンドポイントにロードされたモデルの数が表示されます。

解決策

次の種類の遅延に基づいて、高遅延のトラブルシューティングを行います。

モデル遅延

モデルの遅延の増加を抑えるには、次の手順を実行します。

  • モデルのパフォーマンスをテストするために、SageMaker エンドポイントの外部でモデルのベンチマークを行います。
  • SageMaker Neo がお使いのモデルをサポートしている場合は、そのモデルをコンパイルします。SageMaker Neo は、メモリ使用量を抑え、精度を損なうことなく、2 倍の速度で実行できるようにモデルを最適化します。
  • AWS Inferentia がお使いのモデルをサポートしている場合は、そのモデルを Inferentia 用にコンパイルします。これにより、推論あたりのコストを抑えつつ、スループットを向上させることができます。
  • CPU インスタンスを使用しており、モデルが GPU アクセラレーションをサポートしている場合は、GPU インスタンスを使用してインスタンスに GPU アクセラレーションを追加します。
    注: 推論コードは、コードが推論を処理する方法によっては、モデルの遅延に影響する場合があります。コードの遅延により、エンドポイントの遅延が増加します。
  • エンドポイントで使用できるインスタンスの数を動的に増減するために、エンドポイントに自動スケーリングを追加します。エンドポイントを使いすぎると、モデルの遅延が増加する可能性があります。

オーバーヘッド遅延

オーバーヘッド遅延は、次の要因で増加します。

  • リクエストと応答のペイロードサイズ
  • リクエスト頻度の高低
  • リクエストの認証または承認

エンドポイントの初回呼び出しでは、コールドスタートが原因で遅延が増加する可能性もあります。コールドスタートでの高遅延を回避するには、エンドポイントにテストリクエストを送信して事前にウォームアップします。

ネットワーク遅延

ネットワークの高遅延を減らすには、次の手順を実行します。

  • SageMaker エンドポイントがホストされている AWS リージョンの近くにクライアントアプリケーションをデプロイします。
  • クライアント側のネットワーク構成とインターネット接続を最適化します。
  • 推論リクエストをクライアントに近づけるために、コンテンツ配信ネットワーク (CDN) またはエッジコンピューティングソリューションを使用します。

注: SageMaker がネットワーク遅延に直接影響を与えることはありません。ユースケースに基づいて、SageMaker エンドポイントを使用するアプリケーションの全体的な推論遅延を最適化できていることを確認してください。

AWS公式更新しました 7ヶ月前
コメントはありません

関連するコンテンツ