Je souhaite résoudre les problèmes d’autoscaling des points de terminaison Amazon SageMaker AI.
Résolution
Remarque : Si des erreurs surviennent lorsque vous exécutez des commandes de l'interface de la ligne de commande AWS (AWS CLI), consultez la section Résoudre des erreurs liées à l’AWS CLI. Vérifiez également que vous utilisez bien la version la plus récente de l’AWS CLI.
Résolvez les problèmes d’autoscaling des points de terminaison SageMaker AI en fonction du problème rencontré.
Erreurs de dépassement de limite de ressources
Si vous atteignez un quota de service lorsque vous mettez à l’échelle vos points de terminaison SageMaker AI, vous recevez un message d'erreur similaire au message suivant :
« Failed to set desired instance count to 2. Reason: The account-level service limit 'ml.p2.xlarge for endpoint usage' is 1 Instance, with current utilization of 0 Instances and a request delta of 2 Instances. Please use AWS Service Quotas to request an increase for this quota. »
Pour résoudre ce problème, consultez le quota de service pour votre type d'instance. Si vous avez atteint le quota, demandez une augmentation du quota de service.
La mise à l'échelle prend plus de temps que prévu
Si votre processus de mise à l’échelle ascendante est long avec un faible temps de stabilisation, il est possible que vos alarmes Amazon CloudWatch regroupent plusieurs points de données avant que vous n'activiez la mise à l’échelle. Pour résoudre ce problème, réduisez le paramètre d’alarme Points de données pour le déclenchement d’alarme Amazon CloudWatch.
En outre, d'autres stratégies de mise à l’échelle ou quotas de service peuvent rendre votre processus de mise à l’échelle plus long que prévu. Aussi, vérifiez vos configurations et vos quotas de service pour identifier les problèmes.
Votre stratégie d’autoscaling ne réduit pas verticalement les instances comme prévu
Si votre stratégie d’autoscaling ne réduit pas verticalement les instances comme prévu et que le trafic est faible, prenez les mesures suivantes :
- Configurez la métrique appropriée pour votre stratégie. Pour les points de terminaison asynchrones, utilisez la métrique ApproximateBacklogSizePerInstance. Pour les points de terminaison en temps réel, utilisez la métrique InvocationsPerInstance.
- Pour un autoscaling plus réactif, ajustez vos seuils de mise à l'échelle, vos temps de stabilisation et d'autres paramètres liés à la charge de travail.
- Vérifiez si votre stratégie se met à l’échelle en fonction de la métrique d'utilisation du processeur. Une stratégie qui se met à l’échelle en fonction de la métrique d'utilisation du processeur peut ne pas être réduite lorsque le trafic diminue.
- Si vous définissez un temps de mise en route dans votre stratégie de mise à l’échelle, adaptez-la à la rapidité avec laquelle vos instances gèrent les changements de trafic. Les instances en cours de mise en route ne sont pas prises en compte dans les métriques agrégés pour la mise à l'échelle.
L’autoscaling n'est pas activé dans certaines conditions
Les conditions suivantes empêchent l'activation de l’autoscaling :
- Le type d'instance n'est pas disponible dans la zone de disponibilité sélectionnée.
- La capacité du type d'instance sélectionné est insuffisante.
- Vous n'avez pas correctement configuré la stratégie de mise à l’échelle.
Pour résoudre vos problèmes d’autoscaling, prenez les mesures suivantes :
Informations connexes
Qu’est-ce que Service Quotas ?
Autoscaling des modèles Amazon SageMaker AI
Métriques pour la surveillance d'Amazon SageMaker AI avec Amazon CloudWatch
Inférence asynchrone