Je souhaite résoudre l'erreur « 429 Throttling » qui s'affiche lorsque j'utilise des ressources à la demande Amazon Bedrock.
Brève description
Amazon Bedrock renvoie une exception ThrottlingException (code de statut HTTP) : 429) lorsque vos requêtes sont refusées parce que vous avez dépassé les quotas de votre compte AWS. Vous recevez un message d'erreur du côté client, similaire au message suivant :
- « Too many requests, please wait before trying again. You have sent too many requests. Wait before trying again. »
- « Your request rate is too high. Reduce the frequency of requests. »
- « Too many tokens, please wait before trying again. »
Pour résoudre ce problème, suivez les étapes de dépannage suivantes en fonction de votre cas d'utilisation.
Résolution
Remarque : Si des erreurs surviennent lorsque vous exécutez des commandes de l'interface de la ligne de commande AWS (AWS CLI), consultez la section Résoudre des erreurs liées à l’AWS CLI. Vérifiez également que vous utilisez bien la version la plus récente de l’AWS CLI.
Vérifier et surveiller les quotas de service AWS
Vérifiez que vous ne dépassez pas vos quotas de service Amazon Bedrock. Pour plus d'informations, consultez la section Affichage des quotas de service.
Pour vous assurer que le volume de requêtes de votre application ne dépasse pas les quotas, utilisez Amazon CloudWatch pour surveiller les métriques d'exécution Amazon Bedrock InputTokenCount Invocations. Chaque métrique mesure par minute.
Réessayer la requête
Il est recommandé d'utiliser de nouvelles tentatives avec un backoff exponentiel et une gigue aléatoire. Si vous utilisez des kits SDK AWS, consultez la section Comportement de nouvelle tentative.
Utiliser des profils d'inférence interrégionaux
Utilisez des profils d'inférence interrégionaux pour acheminer le trafic de manière dynamique entre plusieurs régions AWS afin d'optimiser la disponibilité pour chaque requête et de meilleures performances pendant les périodes de forte utilisation. Pour plus d'informations, consultez l'exemple de code relatif à l'interférence interrégionale dans l'atelier amazon-bedrock sur le site Web de GitHub.
Remarque : Pour utiliser les fonctionnalités interrégionales, vous devez utiliser une région et un modèle pris en charge par Amazon Bedrock.
Utiliser le débit provisionné
Si vous avez besoin d'un débit élevé, achetez la fonctionnalité Débit provisionné. Pour utiliser le débit provisionné avec la console Amazon Bedrock, consultez la section Utiliser un débit provisionné avec une ressource Amazon Bedrock. Pour utiliser le débit provisionné avec l'interface de ligne de commande AWS ou le kit SDK Python, consultez la section Exemples de code pour le débit provisionné.
Remarque : Avant d'acheter la fonctionnalité Débit provisionné, assurez-vous d’utiliser une région et un modèle pris en charge par Amazon Bedrock.
Demander une augmentation de quota
Si le trafic de votre charge de travail dépasse les quotas à la demande de votre compte, contactez AWS Support ou votre gestionnaire de compte pour demander une augmentation de quota. Dans votre requête, incluez les informations suivantes :
- Le nom du quota que vous souhaitez augmenter
- L'ID du modèle
- La région pour l'augmentation de quota