내용으로 건너뛰기

작업 북마크가 켜져 있어도 AWS Glue ETL 작업이 데이터를 재처리하는 이유는 무엇입니까?

1분 분량
0

AWS Glue 작업에 작업 북마크를 활성화했지만 작업에서 여전히 내 데이터를 재처리합니다.

해결 방법

다음은 작업 북마크를 설정한 경우에도 추출, 변환, 로드(ETL) 작업에서 데이터를 다시 처리하는 일반적인 이유입니다.

  • 작업 북마크가 있는 동시 작업이 여러 개 있고 최대 동시 실행 수는 1로 설정되어 있지 않습니다.

  • job.init() 객체가 누락되었거나 AWS Glue ETL 스크립트를 시작할 때 호출되지 않습니다.

    job.init(args['JOB_NAME'], args)
  • job.commit() 객체가 없거나 스크립트 끝에서 호출되지 않습니다.

    job.commit()
  • transformation_ctx 파라미터가 누락되었거나 각 ETL 연산자 인스턴스마다 고유하지 않습니다.

    datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
  • 테이블의 기본 키가 순차적이지 않습니다(JDBC 연결만 해당).

  • 마지막 작업 실행 후 소스 데이터가 수정되었습니다.

  • 작업이 Spark DataFrame을 사용하지만 AWS Glue 작업 북마크 기능이 Spark DataFrame에서 지원되지 않습니다.

이러한 문제에 대한 자세한 내용은 오류: 작업 북마크가 활성화되어 있을 때 작업이 데이터를 재처리를 참조하십시오.

관련 정보

작업 북마크를 사용하여 처리된 데이터 추적

AWS 공식업데이트됨 일 년 전