Glue job 을 통해 RDS to S3 로의 작업이 정상적으로 이루어 지지 않습니다.

0

Glue job 을 통해 RDS to S3 작업을 할 때 partitioning ( timestamp , id 사용 ) 하여 데이터를 적재하는 과정에서 최초의 Glue job 은 정상적으로 작동하지만 이후 job 의 경우 s3 내 신규 partition 이 업데이트 되지 않는 현상이 있습니다. ( 새로 생성되어야 하는 파티션 s3 prefix가 만들어지지 않는 현상 )

job bookmark 는 enable 상태이고 script 는 다른 job 에서 사용하는 형태와 같으며 해당 job 은 문제가 없습니다. 이때 제가 확인해봐야 하는 부분이 무엇일까요..?

  • 혹시 해결 하셨나요? 일단 테이블에서 파티션 컬럼으로 지정된 컬럼에 들어오는 데이터를 한 번 확인해봐야 할 것 같아요. 또 glue job 로그를 확인 해볼 수도 있고, glue data catalog가 s3 폴더 구조에 맞게 정상적으로 업데이트 되는지 확인해봐야 할 것 같아요(msck repair 또는 alter 문으로 직접 변경하는 로직). 적재할 s3 경로가 잘 못 되었을 수도 있는데 최초 적재는 잘 되셨다고 하니 이 부분은 아닐 가능성이 높겠네요. s3에 대한 권한 문제일 수도 있을 것 같습니다. 해결 하셨길 바랍니다.

답변 없음

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠