Por que meus trabalhos de ETL do AWS Glue estão reprocessando dados mesmo quando os marcadores de trabalhos estão habilitados?

1 minuto de leitura
0

Eu habilitei marcadores de trabalho para meu trabalho no AWS Glue, mas o trabalho ainda está reprocessando dados.

Resolução

Aqui estão alguns motivos comuns pelos quais um trabalho de extração, transformação e carregamento (ETL) pode reprocessar dados mesmo que os marcadores de trabalho estejam habilitados:

  • Você tem vários trabalhos simultâneos com marcadores de trabalhos e a simultaneidade máxima não está definida como 1.
  • O objeto job.init() está ausente.
  • O objeto job.commit() está ausente.
  • O parâmetro transformation_ctx está ausente.
  • As chaves primárias da tabela não estão em ordem sequencial (somente conexões do JDBC).
  • Os dados de origem foram modificados após a execução do seu último trabalho.

Para obter mais informações sobre cada um desses problemas, consulte Erro: Um trabalho está reprocessando dados quando os marcadores de trabalhos estão habilitados.


Informações relacionadas

Rastreamento de dados processados usando marcadores de trabalhos

AWS OFICIAL
AWS OFICIALAtualizada há um ano