标记有以下标签的问题: 提取变换和加载数据
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 我正在尝试使用PySpark和本地Python在AWS EMR中从3个节点的MongoDB集群(副本集)中读取数据。当在AWS EMR群集中执行代码时,我遇到了问题,如下所述,但相同的代码在我的本地Windows机器上运行良好。
* Spark版本- 2.4.8
* Scala版本- 2.11.12
* MongoDB版本- 4.4.8
*...
1
回答
0
点赞数
16
检视次数
【以下的问题经过翻译处理】 我正在创建一个将数据从MySQL表传输到S3桶的ETL作业,我只需要知道如何建立两个节点之间的映射,我需要每行数据以以下格式显示:
MySQL格式:
col1,col2,col3,col4
xx,yy,ss,dd
rr,ll,ff,gg
JSON文件应该如下(每个文件应该包含来自MySQL表的1000行数据):
{'col1':'xx',...
1
回答
0
点赞数
78
检视次数
【以下的问题经过翻译处理】 我需要将SQL服务器中多张表的数据加载到S3进行批处理。AWS Glue可以读取不同的SQL Server表中的数据,生成CSV文件并将其压缩到S3吗?
AWS Glue能否运行R脚本函数?
1
回答
0
点赞数
41
检视次数
【以下的问题经过翻译处理】 我编写了一个lambda函数,将原始s3存储桶中的json文件转换为parquet文件,并将其直接上传到经过清理的s3存储桶中。我不能删除json文件,因为我想再将其转换为parquet。在测试lambda函数时,存储桶中显示是parquet格式,并且目标表也采用parquet格式,但不知道为什么Athena会提示这个错误。请帮我解决这个问题。谢谢!
1
回答
0
点赞数
21
检视次数
【以下的问题经过翻译处理】 我的Glue作业默认假定了48小时的超时时间(最初我不知道),因为它们陷入了一个延迟循环测试特定S3存储桶中从未创建的特定文件,所以现在当我运行一个简单的基本的Hello...
1
回答
0
点赞数
19
检视次数
【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select...
1
回答
0
点赞数
31
检视次数
【以下的问题经过翻译处理】 我想了解如何在 Glue Job 中调用函数 create_partition_index(<https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html#aws-glue-api-catalog-tables-CreatePartitionIndex>)。
1
回答
0
点赞数
35
检视次数
【以下的问题经过翻译处理】 我已经在Redshift中设置了一个无服务器数据库,创建了一张表,并尝试从我上传到S3桶的.csv文件中加载该表。当我创建表时,我将主键设置为identity键,如下所示:
customerid integer NOT NULL...
1
回答
0
点赞数
13
检视次数
【以下的问题经过翻译处理】 你好,
我正在尝试对Inceberg表执行Upsert操作。
以下脚本创建了一个原始数据存储在S3桶中的Parquet格式表。
然后创建一个空的Inceberg表以进行填充和更新。
在尝试插入数据时失败,请查看下面的错误。
脚本:
```
import pandas as pd
import awswrangler as wr
import...
1
回答
0
点赞数
28
检视次数
【以下的问题经过翻译处理】 是否有选项可以启用Dynamicframe Reader在cp1252字符集(Windows Latin扩展字符集)中打开编码的文件?
1
回答
0
点赞数
16
检视次数
【以下的问题经过翻译处理】 AWS...
1
回答
0
点赞数
70
检视次数
Glue ETL不更新数据目录lg...
【以下的问题经过翻译处理】 你好,我正在创建一个Glue作业,将CSV文件转换为分区Parquet文件,并希望从ETL更新数据目录。 使用以下代码来完成此操作:
```
dynamic_frame: DynamicFrame = DynamicFrame.fromDF(final_data, glue_context, f"{file_type}_dataset")
sink =...
1
回答
0
点赞数
40
检视次数