J'ai activé les signets de tâche pour ma tâche AWS Glue, mais la tâche retraite toujours mes données.
Résolution
Les raisons courantes pour lesquelles une tâche d'extraction, de transformation et de chargement (ETL) retraite les données alors que vous avez activé les signets de tâche sont présentées ci-dessous :
-
Vous disposez de plusieurs tâches simultanées dotées de signets de tâche, et la simultanéité maximale n'est pas définie sur 1.
-
L'objet job.init() est manquant ou n'est pas appelé au début du script ETL AWS Glue :
job.init(args['JOB_NAME'], args)
-
L'objet job.commit() est manquant ou n'est pas appelé à la fin du script :
job.commit()
-
Le paramètre transformation_ctx est manquant ou n'est pas unique pour chaque instance d'opérateur ETL :
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
-
Les clés primaires de la table ne se trouvent pas dans un ordre séquentiel (connexions JDBC uniquement).
-
Les données sources ont été modifiées après votre dernière exécution de tâche.
-
La tâche utilise un Spark DataFrame, mais la fonctionnalité de signet de tâche AWS Glue n'est pas prise en charge par Spark DataFrames.
Pour plus d'informations sur ces problèmes, consultez la section Erreur : Une tâche retraite des données lorsque les signets de tâche sont activés.
Informations connexes
Suivi des données traitées à l'aide de signets de tâche