AWS sagemaker real time endpoint는 request를 동시에 처리하지 않나요?

0

sagemaker를 통해 stable diffusion 모델을 배포한 상태입니다. 클라이언트쪽에서 request를 보내면, 각 request는 대기열에 등록되고 순서대로 진행되듯이 처리되는 것을 cloudwatch log를 통해 확인했습니다. 이렇게되면 실제 서비스에서는 이용하기가 어려워 보이는데, real time endpoint는 한 인스턴스에서 동시에 여러 요청을 처리하지 않나요? 여러 request가 쌓인다면 클라이언트는 실제로 prediction에 걸리는 시간 + 그 전 request가 완료되는 시간까지 기다리게되는데 이를 해결할 수 있는 방법이 있나요?

已提問 1 年前檢視次數 180 次