SageMaker Ground Truth 레이블링 오류 문제를 해결하려면 어떻게 해야 합니까?

3분 분량
0

SageMaker Ground Truth 레이블링 오류 문제를 해결하고 싶습니다. -또는- 제 SageMaker 작업자는 유휴 상태입니다. -또는- SageMaker 작업자에게 작업이 표시되는 데 시간이 오래 걸립니다.

해결 방법

SageMaker Ground Truth는 먼저 SageMaker 작업자에게 10개의 작업을 일괄 전송하여 주석을 달 수 있습니다. 이 배치는 레이블링 작업이 올바르게 구성되었는지 확인하는 데 사용됩니다. 그런 다음 Ground Truth는 maxConcurrentTaskCount 값을 기반으로 작업자에게 더 많은 작업 배치를 전송하여 주석을 추가합니다.

MaxConcurrentTaskCount는 인간 작업자가 동시에 레이블을 지정할 수 있는 데이터 객체의 최대 수를 정의합니다. 콘솔을 사용하는 경우 이 파라미터는 1,000으로 설정됩니다. CreateLabelingJob을 사용하는 경우 이 파라미터를 1에서 1,000 사이의 정수를 포괄적으로 설정할 수 있습니다.

Ground Truth는 레이블을 수신한 후 통합 AWS Lambda 함수로 레이블을 처리합니다. 이 함수를 사용하면 최종 주석이 매니페스트 파일 또는 Amazon Simple Notification Service(SNS) 출력에 기록됩니다. 그런 다음 Ground Truth는 루프백하여 입력 매니페스트 파일 또는 Amazon SNS 주제의 maxConcurrentTaskCount 값을 기반으로 한 다른 작업 배치를 읽습니다.

작업 지연 및 유휴 작업자 문제 해결

  • MaxConcurrentTaskCount 값이 작업자가 지정된 TaskAvailabilityLifetimeInSeconds 내에 전체 배치를 완료할 수 있는 크기로 설정되었는지 확인하세요. 이 파라미터의 최대값은 1,000입니다.
  • NumberOfHumanWorkersPerDataObject가 사용 사례에 맞는 값으로 설정되었는지 확인하세요. 예를 들어, 레이블을 지정할 객체당 작업자 수가 3으로 설정된 경우 작업자 세 명이 각 객체에 레이블을 지정해야 합니다. 작업자 중 두 명이 현재 배치를 완료한 경우 세 번째 작업자가 배치를 완료할 때까지 다음 배치가 할당되지 않습니다. 개인 작업자가 포털에서 작업이 사라지는 것을 발견할 경우 해당 작업자는 배치 하나를 완료한 후 새 배치를 사용할 수 있을 때까지 기다리는 동안 유휴 상태일 수 있습니다.
  • TaskAvailabilityLifetimeInSeconds가 사용 사례에 맞는 값으로 설정되어 있는지 확인하세요. 이 값은 작업자가 작업을 사용할 수 있는 총 시간을 나타냅니다. 이 파라미터에 설정할 수 있는 최대값은 864,000초(10일)입니다. 다음 조건에서는 입력 데이터 세트를 여러 작업으로 분할하여 동일한 작업 팀에게 할당하는 것이 가장 좋습니다.
  • 레이블링 작업의 객체 수가 많습니다.
  • 대기 시간이 TaskAvailabilityLifetimeInSeconds 값을 초과하여 작업이 실패했습니다.
  • TaskTimeLimitInSeconds가 사용 사례에 맞는 값으로 설정되어 있는지 확인하세요. 작업자가 작업을 완료하는 데 걸리는 시간을 제어하여 작업에 주석을 달고 다음 배치가 할당되도록 해야 하는 경우 이 시간 제한에 적절한 값을 설정하는 것이 좋습니다.

레이블링 오류 문제 해결

권한 확인

레이블링 작업 생성, 입력 데이터 액세스 및 출력 데이터를 위한 Amazon Simple Storage Service (Amazon S3) 버킷 액세스 등을 대한 적절한 권한이 있는지 확인하세요. 자세한 내용은 1단계: 시작하기 전에를 참조하세요.

다음을 확인하세요.

  • Amazon S3 버킷은 Ground Truth 레이블링 작업과 동일한 리전에 있습니다.
  • 버킷에는 CORS 정책이 연결되어 있습니다. 자세한 내용은 CORS 권한 요구 사항을 참조하세요.

출력 매니페스트 파일 확인

출력 파일을 저장하기 위해 S3 버킷에 지정한 출력 매니페스트 파일을 확인합니다. 이 출력 데이터 세트에서는 레이블링 작업 실패를 야기할 수도 있었던 실패한 주석에 대한 메타데이터를 볼 수 있습니다.

예:

{"source-ref":"s3://sagemaker-output-labeling-bucket-example/example.jpeg","example-metadata":{"retry-count":1,"failure-reason":"ClientError: Annotation tasks expired.  Probable Reasons are 1) TaskAvailabilityLifetimeInSeconds parameter is too small.  2) Reward is too low for workers to work on the task.  3) If you use a custom html template, your template may be broken.  4) Data (image/video/text) sent for annotation is broken or too big, preventing completion.  5) All workers declined the tasks.","human-annotated":"true"}}

작업자는 명확하지 않은 지침, 손상된 입력 데이터(올바르게 표시되지 않음) 또는 기타 작업 관련 문제로 인해 작업을 거부할 수 있습니다. 모든 작업자가 거부하면 객체가 만료된 것으로 표시되고 다른 작업자에게 전송되지 않습니다.

Amazon CloudWatch Events를 사용하여 작업자의 작업 거부, 제출 또는 반환 여부를 모니터링할 수 있습니다. 자세한 내용은 레이블링 작업 상태 모니터링을 참조하세요.

입력 매니페스트 파일 확인

입력 매니페스트 파일이 나열된 모든 JSON 객체 요구 사항을 충족하는지 확인하세요. 자세한 내용은 입력 매니페스트 파일 사용을 참조하세요.


관련 정보

레이블링 작업 생성

작업자에게 전송되는 데이터 객체의 흐름 제어

레이블링 작업 모니터링

AWS 공식
AWS 공식업데이트됨 일 년 전