¿Por qué no se ejecuta mi canalización de Amazon SageMaker?

2 minutos de lectura
0

Quiero solucionar el problema de por qué falló la ejecución de mi canalización de Amazon SageMaker.

Resolución

Para solucionar el problema de la ejecución fallida de la canalización en SageMaker, haga lo siguiente:

Nota: si recibe errores al ejecutar comandos de AWS CLI, asegúrese de que utiliza la versión más reciente de AWS CLI.

1.    Ejecute el comandolist-pipeline-executions de la interfaz de la línea de comandos de AWS (AWS CLI).

Nota: utilice la consola de AWS CloudShell si no tiene la CLI de AWS configurada en su máquina local.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

El comando devuelve una lista de ejecuciones de canalizaciones para su canalización que tiene un aspecto similar a lo siguiente:

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    Ejecute el comando list-pipeline-executions-steps para ver los pasos que fallaron:

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

La salida es similar a la siguiente:

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

En este caso, el paso del trabajo de formación falló porque se especificó un grupo de seguridad inexistente en el objeto VpcConfig del trabajo.

Si el FailureReason del paso fallido no está claro, consulte los registros de Amazon CloudWatch para ver si el trabajo o el punto de conexión de SageMaker ha fallado para solucionar más problemas. Puede ver los registros de los trabajos de formación en el grupo de registros de CloudWatch /aws/sagemaker/TrainingJobs. La flujo de registro tiene un aspecto similar al siguiente:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp


Información relacionada

Registre los eventos de Amazon SageMaker con Amazon CloudWatch

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año