SageMaker Inference recommender - Model latency for streaming response

0

I have an inference endpoint that returns a HTTP streaming response and I would like to load test it.

Does ModelLatency in the recommender metrics refer to time to receive the first chunk, or time to receive all chunks?

c.f. https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender-interpret-results.html

Francis Flannery EXPERTO
hace 6 meses
The following links may help you understand ModelLatency in more detail. https://aws.amazon.com/blogs/machine-learning/best-practices-for-load-testing-amazon-sagemaker-real-time-inference-endpoints/ and https://repost.aws/knowledge-center/sagemaker-endpoint-latency particularly note how ModelLatency and OverheadLatency are defined.

Temas

Aprendizaje automático e IA

Etiquetas

Amazon SageMaker

Idioma

English

preguntada hace 6 meses54 visualizaciones

No hay respuestas

Más nuevo
Más votos
Más comentarios

Contenido relevante

¿Cómo soluciono los errores relacionados con el streaming de CloudWatch para un entorno de Elastic Beanstalk?
OFICIAL DE AWSActualizada hace un año
¿Cómo puedo solucionar el error «error pulling image configuration: error parsing HTTP 403 response body» en Amazon ECS al extraer una imagen de Docker de Amazon ECR?
OFICIAL DE AWSActualizada hace 2 años
¿Cómo puedo solucionar el error de inferencia de Amazon SageMaker «Se agotó el tiempo de espera del upstream (110): Tiempo de espera de la conexión agotado) al leer el encabezado de la respuesta del upstream»?
OFICIAL DE AWSActualizada hace 2 años
¿Cómo resuelvo los errores HTTP 403 prohibidos del Application Load Balancer?
OFICIAL DE AWSActualizada hace 2 años