标记有以下标签的问题: Extract Transform & Load Data
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 我们的作业需要与OnPrem进行通信,当通信失败时,需要自动重新执行作业以保证数据完整性。但目前我们还没有找到一种可行的失败后重试的方法。
是否有任何方式可以实现这一点?比如使用 AWS Eventbridge 或相关的解决方法?
1
回答
0
点赞数
18
检视次数
【以下的问题经过翻译处理】 我将 csv 数据上传到 S3 存储桶,让 Glue 将它们转换为表供以后使用。我希望所有的列都作为字符串加载,而不用一个一个地指定每个列的名称。我们如何配置 Glue 将所有列加载为字符串,而不是转换为 bigint 等?
1
回答
0
点赞数
32
检视次数
【以下的问题经过翻译处理】 我正在尝试从 S3 读取数据,对其进行转换并将其插入到我在数据目录中创建的表中。
我的 ETL 作业使用 create\_dynamic\_frame 读取数据,转换为 Spark DataFrame,进行转换,转换回 Dynamic DataFrame,然后将该帧写入数据目录。
我像这样写入数据目录表:
```
DataCatalogtable_node2...
1
回答
0
点赞数
34
检视次数
【以下的问题经过翻译处理】 当通过Airflow启动glue作业时遇到错误`ERROR - Failed to run aws glue job, error: An error occurred (ResourceNumberLimitExceededException) when calling the StartJobRun operation: Reached the limit...
1
回答
0
点赞数
35
检视次数
【以下的问题经过翻译处理】 当我运行一个Glue job来处理一些CSV文件时,我使用S3分区(例如按照年份和月份)来存储结果,但是当我在S3中查看时,在“目录层级结构”y=1018/m=1下创建的“文件”个数不是一个,而是创建了许多小文件(每个约9MB)。
1. 可以控制这种行为吗? 即我能否指定每个指定的分区仅会产生一个文件?或者我可以指定每个文件被分成多块时,每块实际的大小?
2....
1
回答
0
点赞数
11
检视次数
Glue将空字符串读为null值。lg...
【以下的问题经过翻译处理】 团队您好,
我运行了一个 AWS Glue Job,从 S3 存储桶上的 CSV 文件读取数据到我的 Aurora MySQL 数据库中。
但它将 CSV 中的空字符串("")解释为 null 值,然后尝试将其插入到非空列中。导致我的Job执行失败。
是否有特定的 Glue / PySpark 代码配置可以防止作业将空字符串视为 null?
谢谢!
1
回答
0
点赞数
68
检视次数
【以下的问题经过翻译处理】 你好:
我们有一个开发用的 RedShift 集群(版本号 1.0.37758),只有一个节点(dc2.large)。最近,在运行一个查询时,我们一直遇到内存不足的错误。这个查询中包含 UNPIVOT…我们一直遇到的两个错误是:
1. ERROR: Out Of Memory:...
1
回答
0
点赞数
9
检视次数
S3批量文件出发Glue作业lg...
【以下的问题经过翻译处理】 我有一个AWS Glue作业,可以从S3读取20个CSV文件并将它们注入到MySQL RDS中。 这20个文件都在S3上,但它们不会在相同的时间到达。我应该如何配置Glue作业/事件规则,使得只有当所有20个文件都被上传到S3上时,自动触发Glue作业?谢谢。
1
回答
0
点赞数
24
检视次数
从Glue作业发送电子邮件lg...
【以下的问题经过翻译处理】 我有一个AWS Glue作业,可以从S3中读取数据并将其注入RDS MySQL中。
我正在尝试在作业结束时(从pySpark...
1
回答
0
点赞数
39
检视次数
【以下的问题经过翻译处理】 我想在Glue ETL作业中使用Pandas。我正在从S3读取,写入到Data Catalog。我正在尝试找到一个基本示例,可以从S3中读取,将其转换为Pandas DF,并进行我的操作,然后将其写入到Data Catalog。看起来我可能需要先将其写入Dynamic DataFrame,然后再发送到data...
1
回答
0
点赞数
20
检视次数
【以下的问题经过翻译处理】 在 Glue 控制台(Glue 3.0 - python 和 spark),我需要在自动化流程中覆盖 S3 存储桶的数据。我尝试在脚本中使用`glueContext.purge_s3_path( "s3://bucket-to-clean-path/", { "retentionPeriod": 1, "manifestFilePath":...
1
回答
0
点赞数
10
检视次数
【以下的问题经过翻译处理】 需求是将来自RDS的多张表格进行ETL,然后将数据加载到S3和Redshift中。
例如,客户需要将来自六张表格的数据合并后加载到S3中。
我尝试设置Glue Jobs以完成这一工作,但是还不明确将表格加载到S3或Redshift的最佳实践:当创建一个Glue Job时,只能选择1个表作为数据源。
是否需要为每一个表格创建一个Glue...
1
回答
0
点赞数
7
检视次数