AWS Glue ジョブのジョブブックマークを有効にしたのに、ジョブでデータが再処理されます。
解決策
ジョブのブックマークを有効にしていても、抽出、変換、読み込み (ETL) ジョブがデータを再処理する一般的な理由を次に示します。
-
ジョブブックマークが有効な同時実行ジョブが複数あり、最大同時実行数が 1 に設定されていない。
-
job.init () オブジェクトが欠けているか、AWS Glue ETL スクリプトの開始時に呼び出されていない。
job.init(args['JOB_NAME'], args)
-
job.commit () オブジェクトが欠けているか、スクリプトの最後で呼び出されていない。
job.commit()
-
transformation_ctx パラメータが欠けているか、各 ETL オペレータインスタンスで一意ではない。
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
-
テーブルのプライマリキーが順番になっていない (JDBC 接続のみ)。
-
ソースデータが、最後のジョブ実行後に変更されている。
-
ジョブは Spark DataFrame を使用しているが、AWS Glue ジョブのブックマーク機能が Spark DataFrame ではサポートされていない。
これらの問題の詳細については、「エラー: ジョブブックマークが有効な状態でジョブがデータを再処理しています」を参照してください。
関連情報
ジョブブックマークを使用して処理されるデータを追跡する