AWS sagemaker real time endpoint는 request를 동시에 처리하지 않나요?

0

sagemaker를 통해 stable diffusion 모델을 배포한 상태입니다. 클라이언트쪽에서 request를 보내면, 각 request는 대기열에 등록되고 순서대로 진행되듯이 처리되는 것을 cloudwatch log를 통해 확인했습니다. 이렇게되면 실제 서비스에서는 이용하기가 어려워 보이는데, real time endpoint는 한 인스턴스에서 동시에 여러 요청을 처리하지 않나요? 여러 request가 쌓인다면 클라이언트는 실제로 prediction에 걸리는 시간 + 그 전 request가 완료되는 시간까지 기다리게되는데 이를 해결할 수 있는 방법이 있나요?

gefragt vor einem Jahr180 Aufrufe
Keine Antworten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen