AWS Glue 작업에 작업 북마크를 활성화했지만 작업에서 여전히 내 데이터를 재처리합니다.
해결 방법
다음은 작업 북마크를 설정한 경우에도 추출, 변환, 로드(ETL) 작업에서 데이터를 다시 처리하는 일반적인 이유입니다.
-
작업 북마크가 있는 동시 작업이 여러 개 있고 최대 동시 실행 수는 1로 설정되어 있지 않습니다.
-
job.init() 객체가 누락되었거나 AWS Glue ETL 스크립트를 시작할 때 호출되지 않습니다.
job.init(args['JOB_NAME'], args)
-
job.commit() 객체가 없거나 스크립트 끝에서 호출되지 않습니다.
job.commit()
-
transformation_ctx 파라미터가 누락되었거나 각 ETL 연산자 인스턴스마다 고유하지 않습니다.
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
-
테이블의 기본 키가 순차적이지 않습니다(JDBC 연결만 해당).
-
마지막 작업 실행 후 소스 데이터가 수정되었습니다.
-
작업이 Spark DataFrame을 사용하지만 AWS Glue 작업 북마크 기능이 Spark DataFrame에서 지원되지 않습니다.
이러한 문제에 대한 자세한 내용은 오류: 작업 북마크가 활성화되어 있을 때 작업이 데이터를 재처리를 참조하십시오.
관련 정보
작업 북마크를 사용하여 처리된 데이터 추적