내용으로 건너뛰기

SageMaker AI 훈련 작업을 실행할 때 발생하는 오류를 해결하려면 어떻게 해야 합니까?

2분 분량
0

Amazon SageMaker AI 훈련 작업을 실행할 때 발생하는 오류를 해결하고 싶습니다.

해결 방법

SageMaker AI 훈련 작업의 오류를 식별하려면 SageMaker AI 콘솔 또는 DescribeTrainingJob API 직접 호출에서 실패 이유를 확인하십시오. 그런 다음 작업 오류에 맞는 해결 방법을 수행하십시오.

내부 서버 오류

일시적인 문제로 인해 오류가 발생하지 않는지 확인하려면 작업을 다시 시도합니다.

작업을 다시 시도했을 때 작업이 실패하면 Amazon CloudWatch에서 훈련 작업에 대한 로그를 확인하십시오. CPUUtilization, MemoryUtilizationDiskUtilization 등의 작업 지표를 검토하여 리소스 제한으로 인해 실패가 발생했는지 확인합니다. SageMaker AI 콘솔에서 훈련 작업 로그와 작업 지표를 확인할 수도 있습니다.

CPUUtilization 또는 MemoryUtilization이 높으면 더 큰 훈련 작업 인스턴스 크기를 사용하십시오. DiskUtilization이 높으면 훈련 작업을 생성할 때 VolumeSizeInGB 파라미터를 늘리십시오.

인스턴스 용량 오류

인스턴스 용량 오류로 인해 훈련 작업이 실패하면 작업을 완료할 수 있는 온디맨드 용량이 충분하지 않은 것입니다. 자세한 내용은 Amazon SageMaker AI 리소스를 시작할 때 발생하는 용량 부족 오류를 해결하려면 어떻게 해야 합니까?를 참조하십시오.

이 오류를 해결하려면 다음 작업 중 하나를 수행하십시오.

  • 요청을 연기하고 나중에 다시 시도합니다. 용량 문제는 일시적이며 요청을 재시도하면 해결될 수 있습니다.
  • 용량이 더 큰 다른 인스턴스 유형 또는 크기로 전환합니다.
  • 다른 AWS 리전에서 훈련 작업을 시작합니다.

MaxRuntimeExceeded 오류

훈련 작업의 기본 최대 런타임은 1일입니다. 런타임을 최대 28일로 조정할 수 있습니다. 최대 런타임 값을 늘리려면 CreateTrainingJob API의 maxRuntimeInSeconds 파라미터 또는 SageMaker AI Python SDK Estimator의 max_run 파라미터를 전달하십시오. 자세한 내용은 Amazon SageMaker Python SDK 웹사이트의 Estimators를 참조하십시오.

관련 정보

내장 알고리즘에 대한 로그