ジョブブックマークが有効になっていても、AWS Glue ETL ジョブがデータを再処理する理由を知りたいです。

所要時間1分
0

AWS Glue ジョブのジョブブックマークを有効にしたのに、ジョブでデータが再処理されます。

解決策

ジョブのブックマークを有効にしていても、抽出、変換、読み込み (ETL) ジョブがデータを再処理する一般的な理由を次に示します。

  • ジョブブックマークが有効な同時実行ジョブが複数あり、最大同時実行数が 1 に設定されていない。

  • job.init () オブジェクトが欠けているか、AWS Glue ETL スクリプトの開始時に呼び出されていない。

    job.init(args['JOB_NAME'], args)
  • job.commit () オブジェクトが欠けているか、スクリプトの最後で呼び出されていない。

    job.commit()
  • transformation_ctx パラメータが欠けているか、各 ETL オペレータインスタンスで一意ではない。

    datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
  • テーブルのプライマリキーが順番になっていない (JDBC 接続のみ)。

  • ソースデータが、最後のジョブ実行後に変更されている。

  • ジョブは Spark DataFrame を使用しているが、AWS Glue ジョブのブックマーク機能が Spark DataFrame ではサポートされていない。

これらの問題の詳細については、「エラー: ジョブブックマークが有効な状態でジョブがデータを再処理しています」を参照してください。

関連情報

ジョブブックマークを使用して処理されるデータを追跡する

AWS公式
AWS公式更新しました 1ヶ月前
コメントはありません