Amazon Bedrock 온디맨드 리소스를 사용할 때 발생하는 “429 스로틀링” 오류를 해결하고 싶습니다.
간략한 설명
Amazon Bedrock은 AWS 계정 할당량 초과를 이유로 요청이 거부될 때 **ThrottlingException(HTTPS 상태 코드: 429)**을 반환합니다. 클라이언트 측에서 다음과 유사한 오류 메시지가 나타납니다.
- "Too many requests, please wait before trying again. You have sent too many requests. Wait before trying again."
- "Your request rate is too high. Reduce the frequency of requests."
- "Too many tokens, please wait before trying again."
이 문제를 해결하려면 사용 사례에 대해 다음 문제 해결 단계를 따르십시오.
해결 방법
참고: AWS Command Line Interface(AWS CLI) 명령을 실행할 때 오류가 발생하면 AWS CLI의 오류 해결을 참조하십시오. 또한 최신 AWS CLI 버전을 사용하고 있는지 확인하십시오.
AWS 서비스 할당량 확인 및 모니터링
Amazon Bedrock 서비스 할당량을 초과하지 않는지 확인하십시오. 자세한 내용을 보려면 서비스 할당량 보기를 참조하십시오.
애플리케이션의 요청 볼륨이 할당량을 초과하지 않도록 하려면 Amazon CloudWatch를 사용하여 Amazon Bedrock 런타임 지표 중에서 InputTokenCount 및 Invocations를 모니터링하십시오. 각 지표는 분당 측정값입니다.
요청 재시도
지수 백오프와 함께 재시도 및 임의 지터를 사용하는 것이 가장 좋습니다. AWS SDK를 사용하는 경우 재시도 동작을 참조하십시오.
교차 리전 추론 프로파일 사용
교차 리전 추론 프로파일을 사용하여 트래픽을 여러 AWS 리전으로 동적으로 라우팅하여 각 요청에 대한 가용성을 최적화하고 사용량이 많은 기간에 성능을 개선하십시오. 자세한 내용은 GitHub 웹사이트의 amazon-bedrock-workshop에서 교차 리전 간섭에 대한 코드 샘플을 참조하십시오.
참고: 교차 리전 기능을 사용하려면 Amazon Bedrock이 지원하는 리전 및 모델을 사용해야 합니다.
프로비저닝된 처리량 사용
처리량 요구 사항이 높으면 프로비저닝된 처리량을 구매하십시오. Amazon Bedrock 콘솔에서 프로비저닝된 처리량을 사용하려면 Amazon Bedrock 리소스와 함께 프로비저닝된 처리량 사용을 참조하십시오. AWS CLI 또는 Python SDK와 함께 프로비저닝된 처리량을 사용하려면 프로비저닝된 처리량에 대한 코드 예시를 참조하십시오.
참고: 프로비저닝된 처리량을 구매하기 전에 Amazon Bedrock이 지원하는 리전 및 모델을 사용하고 있는지 확인하십시오.
할당량 증가 요청
워크로드 트래픽이 계정의 온디맨드 할당량을 초과하는 경우 AWS Support 또는 계정 관리자에게 문의하여 할당량 증가를 요청하십시오. 요청에 다음 정보를 포함하십시오.
- 늘리려는 할당량의 이름
- 모델의 ID
- 할당량 증가 대상 리전