Je souhaite améliorer les performances et les délais de réponse d'Amazon Bedrock lorsque je traite et récupère des données à grande échelle.
Résolution
Vous pouvez rencontrer des problèmes de latence pour l'une des raisons suivantes :
- Distance entre votre application et le point de terminaison Amazon Bedrock
- Modèles de plus grande taille dont le traitement nécessite généralement plus de temps
- Longueur et complexité de vos invites
- Grand volume d'appels d'API simultanés
Pour améliorer les performances et les délais de réponse, procédez comme suit.
Choisir le modèle approprié
Examinez vos exigences spécifiques, puis choisissez le modèle qui répond le mieux à vos besoins en termes de vitesse et de qualité de sortie.
Améliorer vos invites de saisie et de système
Réduisez le nombre de jetons à la fois dans vos invites de saisie et dans les invites du système. Si votre modèle compte moins de jetons à traiter et à générer, il génère une réponse plus rapide.
Il est recommandé d'utiliser des instructions claires et concises, des modèles structurés et des techniques d’ingénierie de requête.
Utiliser la mise en cache des invites
La mise en cache des invites est une fonctionnalité optionnelle que vous pouvez utiliser pour réduire l’inférence des réponses et des modèles dans Amazon Bedrock. Ajoutez des parties de votre conversation à un cache afin que le modèle puisse réutiliser le contexte.
Utiliser des paramètres d'inférence
Utilisez des paramètres d'inférence spécifiques aux modèles, tels que la température, pour contrôler et ajuster la génération de réponses. Ces paramètres vous permettent de contrôler la longueur de la sortie.
Utiliser l'inférence optimisée pour la latence
L’inférence optimisée pour la latence pour les modèles de base dans Amazon Bedrock permet d'accélérer les délais de réponse et d'améliorer la réactivité des applications d'IA. Aucune configuration supplémentaire n'est requise pour accéder à la fonctionnalité d'optimisation de la latence. Définissez le paramètre Latence sur Optimisé.
Utiliser des modèles de plus petite taille
Les modèles de plus grande taille, tels que Anthropic Claude 2, présentent généralement une latence plus élevée mais une meilleure qualité. À la place, vous pouvez utiliser des modèles de plus petite taille qui offrent des réponses plus rapides avec des capacités réduites.
Sélectionner une région plus proche
Si le modèle est disponible dans la région AWS, choisissez la région Amazon Bedrock la plus proche de chez vous.
Utiliser des API de streaming
Les API InvokeModel et Converse doivent attendre que tous les jetons de réponse soient générés avant de vous les renvoyer. Utilisez les API InvokeModelWithResponseStream et ConverseStream car ces API n'attendent pas que tous les jetons soient générés pour renvoyer la réponse dans un flux.