我為 AWS Glue 作業開啟作業書籤,但該作業仍然會重新處理我的資料。
以下是即使您已開啟作業書籤,擷取、轉換和載入 (ETL) 作業仍重新處理資料的常見原因:
您有多個具有作業書籤的並行作業,且最大並行未設定為 1。
job.init() 物件遺失或未在 AWS Glue ETL 指令碼開始時呼叫:
job.init(args['JOB_NAME'], args)
job.commit() 物件遺失或未在指令碼結束時呼叫:
job.commit()
對於每個 ETL 運算子執行個體,transformation_ctx 參數遺失或不是唯一:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
資料表的主索引鍵不是按順序排列(僅 JDBC 連線)。
上次執行作業後,來源資料已修改。
作業使用 Spark DataFrame,但 Spark DataFrame 不支援 AWS Glue 作業書籤功能。
如需這些問題的詳細資訊,請參閱錯誤: 開啟作業書籤後,作業正在重新處理資料。
使用作業書籤追蹤已處理的資料