為什麼即使已開啟作業書籤,AWS Glue ETL 作業仍會重新處理資料?

1 分的閱讀內容
0

我為 AWS Glue 作業開啟作業書籤,但該作業仍然會重新處理我的資料。

解決方法

以下是即使您已開啟作業書籤,擷取、轉換和載入 (ETL) 作業仍重新處理資料的常見原因:

  • 您有多個具有作業書籤的並行作業,且最大並行未設定為 1。

  • job.init() 物件遺失或未在 AWS Glue ETL 指令碼開始時呼叫:

    job.init(args['JOB_NAME'], args)
  • job.commit() 物件遺失或未在指令碼結束時呼叫:

    job.commit()
  • 對於每個 ETL 運算子執行個體,transformation_ctx 參數遺失或不是唯一:

    datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
  • 資料表的主索引鍵不是按順序排列(僅 JDBC 連線)。

  • 上次執行作業後,來源資料已修改。

  • 作業使用 Spark DataFrame,但 Spark DataFrame 不支援 AWS Glue 作業書籤功能。

如需這些問題的詳細資訊,請參閱錯誤: 開啟作業書籤後,作業正在重新處理資料。

相關資訊

使用作業書籤追蹤已處理的資料

AWS 官方
AWS 官方已更新 1 個月前