Glue job 을 통해 RDS to S3 로의 작업이 정상적으로 이루어 지지 않습니다.

0

Glue job 을 통해 RDS to S3 작업을 할 때 partitioning ( timestamp , id 사용 ) 하여 데이터를 적재하는 과정에서 최초의 Glue job 은 정상적으로 작동하지만 이후 job 의 경우 s3 내 신규 partition 이 업데이트 되지 않는 현상이 있습니다. ( 새로 생성되어야 하는 파티션 s3 prefix가 만들어지지 않는 현상 )

job bookmark 는 enable 상태이고 script 는 다른 job 에서 사용하는 형태와 같으며 해당 job 은 문제가 없습니다. 이때 제가 확인해봐야 하는 부분이 무엇일까요..?

  • 혹시 해결 하셨나요? 일단 테이블에서 파티션 컬럼으로 지정된 컬럼에 들어오는 데이터를 한 번 확인해봐야 할 것 같아요. 또 glue job 로그를 확인 해볼 수도 있고, glue data catalog가 s3 폴더 구조에 맞게 정상적으로 업데이트 되는지 확인해봐야 할 것 같아요(msck repair 또는 alter 문으로 직접 변경하는 로직). 적재할 s3 경로가 잘 못 되었을 수도 있는데 최초 적재는 잘 되셨다고 하니 이 부분은 아닐 가능성이 높겠네요. s3에 대한 권한 문제일 수도 있을 것 같습니다. 해결 하셨길 바랍니다.

Keine Antworten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen