Eu ativei marcadores de trabalho para meu trabalho no AWS Glue, mas o trabalho ainda está reprocessando os meus dados.
Resolução
Os motivos a seguir são alguns motivos comuns pelos quais um trabalho de extração, transformação e carregamento (ETL) reprocessa dados mesmo que você tenha ativado os marcadores de trabalho:
-
Você tem vários trabalhos simultâneos com marcadores de trabalhos e a simultaneidade máxima não está definida como 1.
-
O objeto job.init() está ausente ou não foi chamado no início do script ETL do AWS Glue:
job.init(args['JOB_NAME'], args)
-
O objeto job.commit() está ausente ou não foi chamado no final do script:
job.commit()
-
O parâmetro transformation_ctx está ausente ou não é exclusivo para cada instância do operador ETL:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
-
As chaves primárias da tabela não estão em ordem sequencial (somente conexões do JDBC).
-
Os dados de origem foram modificados após a execução do seu último trabalho.
-
O trabalho usa um Spark DataFrame, mas o atributo de marcadores de trabalho do AWS Glue não é suportado pelo Spark DataFrames.
Para obter mais informações sobre esses problemas, consulte Erro: Um trabalho está reprocessando dados quando os marcadores de trabalhos estão ativados.
Informações relacionadas
Rastreamento de dados processados usando marcadores de trabalhos