1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 当您使用Glue Crawler爬取表时,Glue会扫描表格并读取前1MB(称为数据采样)来推断架构。如果您有一个架构与表格不同的表格,则应禁用数据采样并让爬虫扫描整个表格。
在使用glueContext.create_dynamic_frame_from_catalog()
读取表格时,根据dynamodb.splits
定义进行并行的完整表格扫描,并读取到数据框架中。这会消耗表格的容量,如果您的表格用于其他应用程序,则可以将Glue从[0-1.5] dynamodb.throughput.read.percent
的扫描速率限制,以使其不会消耗所有可用的容量。任何过滤标准必须在完整的数据读取之后执行。
https://docs.aws.amazon.com/zh_cn/glue/latest/dg/aws-glue-programming-etl-connect.html
您现在还可以选择在不消耗容量的情况下读取数据,其中Glue首先使用DynamoDBExportTableToPointInTime
将表格导出到S3。 DynamoDB表必须启用PITR。对目录的任何后续读取都将过时,直到您进行导出。这对于一次性任务或不经常发生的任务非常有用。
dyf = glue_context.create_dynamic_frame.from_options(
connection_type="dynamodb",
connection_options={
"dynamodb.export": "ddb",
"dynamodb.tableArn": "<test_source>",
"dynamodb.s3.bucket": "<bucket name>",
"dynamodb.s3.prefix": "<bucket prefix>",
"dynamodb.s3.bucketOwner": "<account_id>",
}
)
相关内容
- AWS 官方已更新 1 年前
- AWS 官方已更新 3 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前