Warum scheitert die Ausführung meiner Amazon-SageMaker-Pipeline?

Lesedauer: 2 Minute
0

Ich möchte herausfinden, warum die Ausführung meiner Amazon-SageMaker-Pipeline fehlgeschlagen ist.

Auflösung

Gehen Sie wie folgt vor, um herauszufinden warum die Pipeline-Ausführung in SageMaker fehlgeschlagen ist:

Hinweis: Wenn Sie beim Ausführen von AWS-CLI-Befehlen Fehlermeldungen erhalten, stellen Sie sicher, dass Sie die neueste Version der AWS CLI verwenden.

1.    Führen Sie die Befehlszeile list-pipeline-executions in der AWS-Befehlszeilenschnittstelle (AWS Command Line Interface (AWS CLI)) aus.

Hinweis: Verwenden Sie die AWS-CloudShell-Konsole, wenn auf Ihrem lokalen Computer keine AWS CLI konfiguriert ist.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

Der Befehl zeigt eine Liste der Pipeline-Ausführungen für Ihre Pipeline an, die der folgenden ähnelt:

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    Führen Sie den Befehl list-pipeline-executions-steps aus, um die fehlgeschlagenen Schritte anzuzeigen:

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

Die Ausgabe sieht wie folgt aus:

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

In diesem Fall ist der Schritt Trainingsauftrag fehlgeschlagen, weil im Objekt VpcConfig des Auftrags eine nicht vorhandene Sicherheitsgruppe angegeben wurde.

Wenn der Fehlergrund für den fehlgeschlagenen Schritt nicht klar ist, suchen Sie in den Amazon-CloudWatch-Protokollen nach dem fehlgeschlagenen SageMaker-Auftrag oder Endpunkt, um mit der Problembehebung weiter zu machen. Sie können die Protokolle für die Trainingsaufträge in der CloudWatch-Protokollgruppe /AWS/SageMaker/TrainingJobs sehen. Der Protokollstream sieht in etwa wie folgt aus:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp


Relevante Informationen

Amazon-SageMaker-Ereignisse mit Amazon CloudWatch protokollieren

AWS OFFICIAL
AWS OFFICIALAktualisiert vor einem Jahr