Glue job 을 통해 RDS to S3 로의 작업이 정상적으로 이루어 지지 않습니다.

0

Glue job 을 통해 RDS to S3 작업을 할 때 partitioning ( timestamp , id 사용 ) 하여 데이터를 적재하는 과정에서 최초의 Glue job 은 정상적으로 작동하지만 이후 job 의 경우 s3 내 신규 partition 이 업데이트 되지 않는 현상이 있습니다. ( 새로 생성되어야 하는 파티션 s3 prefix가 만들어지지 않는 현상 )

job bookmark 는 enable 상태이고 script 는 다른 job 에서 사용하는 형태와 같으며 해당 job 은 문제가 없습니다. 이때 제가 확인해봐야 하는 부분이 무엇일까요..?

  • 혹시 해결 하셨나요? 일단 테이블에서 파티션 컬럼으로 지정된 컬럼에 들어오는 데이터를 한 번 확인해봐야 할 것 같아요. 또 glue job 로그를 확인 해볼 수도 있고, glue data catalog가 s3 폴더 구조에 맞게 정상적으로 업데이트 되는지 확인해봐야 할 것 같아요(msck repair 또는 alter 문으로 직접 변경하는 로직). 적재할 s3 경로가 잘 못 되었을 수도 있는데 최초 적재는 잘 되셨다고 하니 이 부분은 아닐 가능성이 높겠네요. s3에 대한 권한 문제일 수도 있을 것 같습니다. 해결 하셨길 바랍니다.

Nessuna risposta

Accesso non effettuato. Accedi per postare una risposta.

Una buona risposta soddisfa chiaramente la domanda, fornisce un feedback costruttivo e incoraggia la crescita professionale del richiedente.

Linee guida per rispondere alle domande