Amazon SageMaker 노트북 인스턴스가 Pending(대기 중) 상태에서 멈춘 후 실패하는 이유는 무엇인가요?

3분 분량
0

Amazon SageMaker 노트북 인스턴스를 생성하거나 시작하면 인스턴스가 Pending(대기 중) 상태로 전환됩니다. 노트북 인스턴스가 이 상태에서 멈춘 것처럼 보이고 실패합니다.

간략한 설명

대기 중 상태는 SageMaker가 노트북 인스턴스를 생성하고 있음을 의미합니다. 생성 프로세스 단계 중 하나라도 실패하면 SageMaker는 노트북을 다시 생성하려고 시도합니다. 이러한 이유로 노트북이 예상보다 오래 Pending(대기 중) 상태에 머물 수 있습니다. 여전히 SageMaker에서 노트북 인스턴스를 생성할 수 없는 경우 상태가 결국 Failed(실패)로 변경됩니다.

해결 방법

실패 원인 확인

DescribeNotebookInstance API에서 FailureReason 응답을 확인합니다. SageMaker 콘솔에서도 실패 원인을 찾을 수 있습니다.

  • 실패 원인의 단축 버전을 표시하는 팝업 창을 보려면 [상태(Status)] 열에서 [실패(Failed)]를 일시 중지합니다.
  • 전체 실패 원인을 보려면 노트북 인스턴스의 이름을 선택합니다. 실패 원인은 노트북 인스턴스 설정 섹션의 맨 위에 나타납니다.

실패 원인 사용하여 근본 원인을 해결합니다.

일반 오류

"치명적인 오류: 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/'에 액세스할 수 없음: github.com 포트 443에 연결하지 못함: 연결 제한 시간 초과"

이 오류는 노트북 인스턴스의 네트워킹 구성이 외부 Git 리포지토리의 도메인 이름이나 연결을 지원하지 않을 때 발생합니다.

중요: Virtual Private Cloud(VPC)에 배포된 노트북 인스턴스는 VPC 피어링 연결을 위한 서브넷과 같은 사용자 지정 라우팅 테이블을 자동으로 상속하지 않습니다. 사용자 지정 라우팅 테이블이 필요한 경우 시작 시 경로를 추가하는 수명 주기 구성 스크립트를 생성합니다. 자세한 내용을 알아보려면 Amazon SageMaker 노트북 인스턴스 네트워킹 구성 및 고급 라우팅 옵션 이해하기를 참조하세요.

Git 연결이 활성 상태이고 노트북 인스턴스에서 리포지토리에 연결할 수 있는지 확인하려면 연결된 Git 리포지토리 없이 새 노트북 인스턴스를 생성합니다. 그런 다음 Jupyter 콘솔을 열고 터미널 세션을 사용하여 다음 명령을 실행합니다.

1.FSP서버의 호스트 이름을 확인합니다.

dig repo_hostname

출력의 응답 섹션이 비어 있으면 노트북에서 호스트 이름을 확인할 수 없습니다. 예를 들어, github.com의 응답 섹션은 다음과 같이 표시됩니다.

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.FSP출력의 응답 섹션에 응답이 포함되어 있으면 도메인 이름 확인이 작동합니다. 이어서 다음 명령을 실행하여 호스트 이름에 대한 연결을 테스트할 수 있습니다.

curl -v your-git-repo-url:443

3.FSP연결이 거부되거나 시간 초과된 경우 VPC 보안 그룹 규칙라우팅 테이블을 확인합니다. 연결에 성공하면 git 명령을 사용하여 보안 인증을 테스트합니다.

git pull https://your-git-repo-url

"수명 주기 구성 실패"

수명 주기 구성 스크립트가 5분 넘게 실행될 경우 스크립트가 실패하고 노트북 인스턴스가 생성되거나 시작되지 않습니다. 스크립트 실행 시간을 줄이는 방법에 대한 제안 사항을 알아보려면 수명 주기 구성 스크립트를 사용하여 노트북 인스턴스 사용자 지정을 참조하세요. 스크립트 문제를 해결하려면 Amazon CloudWatch Logs에서 수명 주기 구성을 확인합니다.

  • 로그 그룹: /aws/sagemaker/NotebookInstances
  • 로그 스트림: notebook-instance-name/LifecycleConfigOnStart 또는 notebook-instance-name/LifecycleConfigOnCreate

"이 노트북 인스턴스 유형 'ml.m4.xlarge'는 일시적으로 이용할 수 없습니다. 불편을 드려 죄송합니다. 몇 분 후에 다시 시도하거나 다른 인스턴스 유형을 시도하세요."

이 오류는 선택한 인스턴스 유형에 대해 Amazon Elastic Compute Cloud(Amazon EC2)에 사용 가능한 용량이 충분하지 않을 때 발생합니다. 용량은 해당 리전에서 해당 인스턴스 유형에 대한 그 시점의 수요에 따라 달라집니다. 나중에 요청을 다시 시도하여 용량 수준이 변경되었는지 확인합니다. 또는 다른 인스턴스 유형을 선택합니다.

HTTP 500 내부 오류

HTTP 500 오류는 노트북 인스턴스 생성 중 예기치 않은 오류가 발생했음을 나타냅니다. 일시적인 문제를 배제하려면 노트북 인스턴스를 다시 생성해 보십시오.


관련 정보

Git 리포지토리와 Amazon SageMaker 노트북 인스턴스 연결

일반 오류

AWS 공식
AWS 공식업데이트됨 일 년 전