Por que meus trabalhos de ETL do AWS Glue estão reprocessando dados mesmo quando os marcadores de trabalhos estão ativados?

2 minuto de leitura
0

Eu ativei marcadores de trabalho para meu trabalho no AWS Glue, mas o trabalho ainda está reprocessando os meus dados.

Resolução

Os motivos a seguir são alguns motivos comuns pelos quais um trabalho de extração, transformação e carregamento (ETL) reprocessa dados mesmo que você tenha ativado os marcadores de trabalho:

  • Você tem vários trabalhos simultâneos com marcadores de trabalhos e a simultaneidade máxima não está definida como 1.

  • O objeto job.init() está ausente ou não foi chamado no início do script ETL do AWS Glue:

    job.init(args['JOB_NAME'], args)
  • O objeto job.commit() está ausente ou não foi chamado no final do script:

    job.commit()
  • O parâmetro transformation_ctx está ausente ou não é exclusivo para cada instância do operador ETL:

    datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
  • As chaves primárias da tabela não estão em ordem sequencial (somente conexões do JDBC).

  • Os dados de origem foram modificados após a execução do seu último trabalho.

  • O trabalho usa um Spark DataFrame, mas o atributo de marcadores de trabalho do AWS Glue não é suportado pelo Spark DataFrames.

Para obter mais informações sobre esses problemas, consulte Erro: Um trabalho está reprocessando dados quando os marcadores de trabalhos estão ativados.

Informações relacionadas

Rastreamento de dados processados usando marcadores de trabalhos

AWS OFICIAL
AWS OFICIALAtualizada há um mês