Amazon SageMaker 파이프라인 실행이 실패하는 이유가 무엇인가요?

2분 분량
0

Amazon SageMaker 파이프라인 실행이 실패하는 문제를 해결하고 싶습니다.

해결 방법

SageMaker에서 실패한 파이프라인 실행 문제를 해결하려면 다음을 수행하세요.

참고: AWS CLI 명령을 실행할 때 오류가 발생하는 경우 최신 버전의 AWS CLI를 사용하고 있는지 확인하세요.

1.    AWS Command Line Interface(AWS CLI) 명령 list-pipeline-executions를 실행합니다.

참고: 로컬 시스템에 AWS CLI가 구성되어 있지 않은 경우 AWS CloudShell 콘솔을 사용하세요.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

이 명령은 다음과 비슷한 파이프라인의 파이프라인 실행 목록을 반환합니다.

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    list-pipeline-executions-steps 명령을 실행하여 실패한 단계를 확인합니다.

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

출력은 다음과 유사합니다.

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

이 경우 작업의 VpcConfig 객체에 존재하지 않는 보안 그룹이 지정되어 교육 작업 단계가 실패했습니다.

실패한 단계의 FailureReason이 명확하지 않은 경우 Amazon CloudWatch Logs에서 실패한 SageMaker 작업 또는 엔드포인트를 확인하여 추가 문제를 해결하세요. CloudWatch 로그 그룹 /aws/sagemaker/TrainingJobs에서 교육 작업에 대한 로그를 볼 수 있습니다. 로그 스트림은 다음과 유사합니다.

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp


관련 정보

Amazon CloudWatch로 Amazon SageMaker 이벤트 로그

AWS 공식
AWS 공식업데이트됨 2년 전
댓글 없음

관련 콘텐츠