AWS sagemaker real time endpoint는 request를 동시에 처리하지 않나요?

0

sagemaker를 통해 stable diffusion 모델을 배포한 상태입니다. 클라이언트쪽에서 request를 보내면, 각 request는 대기열에 등록되고 순서대로 진행되듯이 처리되는 것을 cloudwatch log를 통해 확인했습니다. 이렇게되면 실제 서비스에서는 이용하기가 어려워 보이는데, real time endpoint는 한 인스턴스에서 동시에 여러 요청을 처리하지 않나요? 여러 request가 쌓인다면 클라이언트는 실제로 prediction에 걸리는 시간 + 그 전 request가 완료되는 시간까지 기다리게되는데 이를 해결할 수 있는 방법이 있나요?

질문됨 일 년 전170회 조회
답변 없음

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인