SageMaker Inference recommender - Model latency for streaming response

0

I have an inference endpoint that returns a HTTP streaming response and I would like to load test it.

Does ModelLatency in the recommender metrics refer to time to receive the first chunk, or time to receive all chunks?

c.f. https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender-interpret-results.html

Francis Flannery EXPERTE
vor 6 Monaten
The following links may help you understand ModelLatency in more detail. https://aws.amazon.com/blogs/machine-learning/best-practices-for-load-testing-amazon-sagemaker-real-time-inference-endpoints/ and https://repost.aws/knowledge-center/sagemaker-endpoint-latency particularly note how ModelLatency and OverheadLatency are defined.

Themen

Maschinelles Lernen & KI

Tags

Amazon SageMaker

Sprache

English

gefragt vor 6 Monaten54 Aufrufe

Keine Antworten

Neueste
Die meisten Stimmen
Die meisten Kommentare

Relevanter Inhalt

Wie behebe ich den Fehler „The specified queue does not exist or you do not have access to it.“, wenn ich einen AWS Glue Job ausführe, um Nachrichten an Amazon SQS in einer anderen Region zu senden?
AWS OFFICIALAktualisiert vor 3 Jahren
Wie richte ich kontoübergreifendes Streaming von Amazon Data Firehose zu Amazon OpenSearch Service ein?
AWS OFFICIALAktualisiert vor 6 Monaten
Wie behebe ich Fehler bezüglich des Streaming mit CloudWatch in einer Elastic-Beanstalk-Umgebung?
AWS OFFICIALAktualisiert vor einem Jahr
Wie behebe ich den Fehler „error pulling image configuration: error parsing HTTP 403 response body“ in Amazon ECS beim Abrufen eines Docker-Images aus Amazon ECR?
AWS OFFICIALAktualisiert vor 2 Jahren