我的 AWS Glue 作业及其书签无法成功运行或处理所需的数据。
解决方法
正确配置书签
在配置书签时,请执行以下操作:
- 为作业启用 Enable Bookmark(启用书签)选项。
- 将作业的最大并发运行数设置为 1。
正确使用书签
在提取、转换、加载 (ETL) 作业中,使用 AWS Glue DynamicFrame API 从数据来源读取数据。
**注意:**不要使用 DataFrame API 或 Apache Spark SQL 从数据来源读取数据。这些方法不支持 AWS Glue 作业书签功能。
在脚本中包含以下内容:
`job.init(args['JOB_NAME'], args) `
`datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name",table_name = "table_name", transformation_ctx = "datasource0")`
`job.commit()`
在创建 DynamicFrame 时,必须添加 transformation_ctx 参数作为 ETL 运算符实例的唯一标识符。
**注意:**更新或修改脚本时,请勿更改 transformation_ctx 参数。
对 JDBC 源的书签相关问题进行故障排除
如果您遇到与 Java Database Connectivity (JDBC) 源的书签相关的问题,请执行以下操作:
- 如果您的 AWS Glue 脚本未指定用作书签键的列,请按升序或降序对表的主键进行排序,且不能包含间隔。
- 如果脚本使用用户定义的书签作为键,请按升序或降序对这些键进行排序。可以包含间隔。
- 请勿使用名称区分大小写的列作为书签键。
相关信息
使用作业书签跟踪已处理的数据