Desidero migliorare le prestazioni e i tempi di risposta di Amazon Bedrock durante l'elaborazione e il recupero di dati su larga scala.
Risoluzione
Potresti riscontrare problemi di latenza per uno dei seguenti motivi:
- Distanza tra l'applicazione e l'endpoint di Amazon Bedrock
- Modelli più grandi che in genere richiedono più tempo per l'elaborazione
- Lunghezza e complessità dei prompt
- Grande volume di chiamate API simultanee
Per migliorare le prestazioni e i tempi di risposta, intraprendi le seguenti azioni.
Scegli il modello giusto
Rivedi i requisiti specifici, quindi scegli il modello più adatto alle esigenze in termini di velocità e qualità di output.
Migliora i prompt di input e i prompt di sistema
Riduci il numero di token sia nei prompt di input che nei prompt di sistema. Se il modello ha meno token da elaborare e generare, il modello genera una risposta più rapida.
È consigliabile utilizzare prompt chiari e concisi, modelli strutturati e tecniche di progettazione dei prompt.
Utilizza il caching dei prompt
Il caching dei prompt è una funzionalità opzionale che puoi utilizzare per ridurre i tempi di risposta e inferenza di un modello in Amazon Bedrock. Aggiungi parti della conversazione a una cache in modo che il modello possa riutilizzare il contesto.
Utilizza parametri di inferenza
Utilizza parametri di inferenza specifici per i modelli, come la temperatura, per controllare e ottimizzare la generazione della risposta. Questi parametri consentono di controllare la lunghezza dell'output.
Utilizza l'inferenza ottimizzata per la latenza
L'inferenza ottimizzata per la latenza per i modelli di fondazione in Amazon Bedrock offre tempi di risposta più rapidi e una migliore reattività per le applicazioni di intelligenza artificiale. Non è richiesta alcuna configurazione aggiuntiva per accedere alla funzionalità di ottimizzazione della latenza. Imposta il parametro Latency su Optimized.
Utilizza modelli più piccoli
I modelli più grandi, come Anthropic Claude 2, hanno in genere una latenza più elevata ma una qualità migliore. Puoi invece utilizzare modelli più piccoli che offrono risposte più rapide con funzionalità ridotte.
Seleziona una Regione più vicina
Se il modello è disponibile nella Regione AWS, scegli la Regione di Amazon Bedrock più vicina.
Utilizza le API di streaming
Le API InvokeModel e Converse devono attendere la generazione di tutti i token di risposta prima di restituirli. Utilizza le API InvokeModelWithResponseStream and ConverseStream perché non attendono la generazione di tutti i token e restituiscono la risposta in uno flusso.