Comment puis-je résoudre les problèmes d’autoscaling des points de terminaison SageMaker AI ?

Lecture de 4 minute(s)
0

Je souhaite résoudre les problèmes d’autoscaling des points de terminaison Amazon SageMaker AI.

Résolution

Remarque : Si des erreurs surviennent lorsque vous exécutez des commandes de l'interface de la ligne de commande AWS (AWS CLI), consultez la section Résoudre des erreurs liées à l’AWS CLI. Vérifiez également que vous utilisez bien la version la plus récente de l’AWS CLI.

Résolvez les problèmes d’autoscaling des points de terminaison SageMaker AI en fonction du problème rencontré.

Erreurs de dépassement de limite de ressources

Si vous atteignez un quota de service lorsque vous mettez à l’échelle vos points de terminaison SageMaker AI, vous recevez un message d'erreur similaire au message suivant :

« Failed to set desired instance count to 2. Reason: The account-level service limit 'ml.p2.xlarge for endpoint usage' is 1 Instance, with current utilization of 0 Instances and a request delta of 2 Instances. Please use AWS Service Quotas to request an increase for this quota. »

Pour résoudre ce problème, consultez le quota de service pour votre type d'instance. Si vous avez atteint le quota, demandez une augmentation du quota de service.

La mise à l'échelle prend plus de temps que prévu

Si votre processus de mise à l’échelle ascendante est long avec un faible temps de stabilisation, il est possible que vos alarmes Amazon CloudWatch regroupent plusieurs points de données avant que vous n'activiez la mise à l’échelle. Pour résoudre ce problème, réduisez le paramètre d’alarme Points de données pour le déclenchement d’alarme Amazon CloudWatch.

En outre, d'autres stratégies de mise à l’échelle ou quotas de service peuvent rendre votre processus de mise à l’échelle plus long que prévu. Aussi, vérifiez vos configurations et vos quotas de service pour identifier les problèmes.

Votre stratégie d’autoscaling ne réduit pas verticalement les instances comme prévu

Si votre stratégie d’autoscaling ne réduit pas verticalement les instances comme prévu et que le trafic est faible, prenez les mesures suivantes :

  • Configurez la métrique appropriée pour votre stratégie. Pour les points de terminaison asynchrones, utilisez la métrique ApproximateBacklogSizePerInstance. Pour les points de terminaison en temps réel, utilisez la métrique InvocationsPerInstance.
  • Pour un autoscaling plus réactif, ajustez vos seuils de mise à l'échelle, vos temps de stabilisation et d'autres paramètres liés à la charge de travail.
  • Vérifiez si votre stratégie se met à l’échelle en fonction de la métrique d'utilisation du processeur. Une stratégie qui se met à l’échelle en fonction de la métrique d'utilisation du processeur peut ne pas être réduite lorsque le trafic diminue.
  • Si vous définissez un temps de mise en route dans votre stratégie de mise à l’échelle, adaptez-la à la rapidité avec laquelle vos instances gèrent les changements de trafic. Les instances en cours de mise en route ne sont pas prises en compte dans les métriques agrégés pour la mise à l'échelle.

L’autoscaling n'est pas activé dans certaines conditions

Les conditions suivantes empêchent l'activation de l’autoscaling :

  • Le type d'instance n'est pas disponible dans la zone de disponibilité sélectionnée.
  • La capacité du type d'instance sélectionné est insuffisante.
  • Vous n'avez pas correctement configuré la stratégie de mise à l’échelle.

Pour résoudre vos problèmes d’autoscaling, prenez les mesures suivantes :

  • Vérifiez la disponibilité du type d'instance dans la zone de disponibilité que vous utilisez.
  • Augmentez le seuil de mise à l'échelle pour activer la mise à l'échelle ascendante plus tôt.
  • Utilisez un autre type d'instance disposant d'une plus grande capacité disponible.
  • Configurez vos alarmes CloudWatch pour surveiller vos métriques. Assurez-vous également que les alarmes passent à l'état ALARME lorsque les conditions de réduction d’échelle sont remplies. Pour surveiller vos activités de mise à l’échelle, exécutez la commande application-autoscaling suivante :
    aws application-autoscaling describe-scaling-activities --service-namespace sagemaker --resource-id example-resource-id --include-not-scaled-activities
    Remarque : Remplacez example-resource-id par votre ID de ressource.

Informations connexes

Qu’est-ce que Service Quotas ?

Autoscaling des modèles Amazon SageMaker AI

Métriques pour la surveillance d'Amazon SageMaker AI avec Amazon CloudWatch

Inférence asynchrone

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a 5 mois