标记有以下标签的问题: Extract Transform & Load Data
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 无法找到一种适当的方法来为我的Athena表**parquet**设置正确的时间戳属性数据类型,以便查询时间间隔。
我通过爬虫在从glue交互作业(PySpark)产生的parquet文件上创建表。
\*\*下面是我的Athena表和我尝试的时间戳格式\*\*
1. ts(数据类型为**timestamp**):2023-02-07...
1
回答
0
点赞数
25
检视次数
【以下的问题经过翻译处理】 你好,我正在运行一个Glue Job,在 S3 上的一个以分号分隔的 CSV 文件上应用 ETL。然而,当我使用 AWS 的 DynamicFrame 功能读取文件并尝试使用 printSchema 或 toDF 等方法时,出现以下错误:
py4j.protocol.Py4JJavaError: An error occurred while calling...
1
回答
0
点赞数
47
检视次数
【以下的问题经过翻译处理】 我有一个AWS Glue PII数据检测作业,对于17.9 MB的文件大小,完成需要大约47分钟,这对于任何spark作业来说都是非常长的时间。
以下是作业中使用的代码片段:
```
S3bucket_node1 = glueContext.create_dynamic_frame.from_options(
format_options={
...
1
回答
0
点赞数
48
检视次数
【以下的问题经过翻译处理】 我正在尝试在EMR上运行一个Python作业,其中一些依赖项已通过venv安装,如下所示:
```
python -m venv pyspark_venv
source pyspark_venv/bin/activate
pip install pyarrow pandas venv-pack
venv-pack -o...
1
回答
0
点赞数
41
检视次数
【以下的问题经过翻译处理】 Hi,我想在 EMR Serverless上运行一个Job,该Job从 PostgreSQL 中读取和写入数据。我已经下载了 Jar 文件并将其上传到 S3,并在管理控制台的 Spark 属性中设置了 "spark.jars"。然而,作业失败了。
谢谢,Muthu
1
回答
0
点赞数
51
检视次数
【以下的问题经过翻译处理】 我正在尝试从S3桶中的.csv文件加载Redshift表格。创建表格时,有三列设置了默认值。
,"current\_row\_ind" CHAR(1) DEFAULT 'Y'
,"EFFECTIVE\_DATE" DATE DEFAULT TO\_DATE(CURRENT\_DATE, 'YYYY-MM-DD')
,"EXPIRATION\_DATE"...
1
回答
0
点赞数
15
检视次数
【以下的问题经过翻译处理】 我的蓝图需要一个S3 PutObject事件来启动Glue ETL作业。但当创建蓝图时,我只看到了按需和基于计划的触发器选项。有人知道在蓝图中创建这样的触发器的方法,或者更复杂的触发器类型是否会得到支持吗?
1
回答
0
点赞数
56
检视次数
【以下的问题经过翻译处理】 客户使用什么AWS ETL工具来设置数据不断地加载到Redshift,同时提供类似于Microsoft SSIS的转换功能会更好?例如,“从这个文件每天完全替换地加载这个表的数据,计算这些列等等”。
1
回答
0
点赞数
36
检视次数
数据管道停止处理S3存储桶中的文件lg...
【以下的问题经过翻译处理】 有一个数据管道,从S3存储桶中读取CSV文件并将数据复制到RDS数据库中。
我指定桶/文件夹名称,并处理其中的每个CSV文件。完成后,ShellCommandActivity将文件移动到S3存储桶中的另一个“文件夹”中。这是测试时的工作原理。使用真实数据时,它在处理几个文件后就停止了。
日志中的最后一行是
`07 Dec 2021 09:57:55,755...
1
回答
0
点赞数
37
检视次数
【以下的问题经过翻译处理】 你好。
AWS Glue 能读取像下面这样的源数据文件吗?
```
20220101E00011000AAABBBCCC
20220101E00021000あいCCC
```
第二条记录包含日语字符,并且与第一条记录具有相同的字节长度。每条记录的字符数不同。
谢谢。
1
回答
0
点赞数
24
检视次数
S3作业书签实现lg...
【以下的问题经过翻译处理】 AWS 是否提供 Glue 中 S3 书签逻辑的实施细节?
我有一个包含数万个分区(year, month, day, device_id)的桶,分区内的每个文件都包含许多事件
当我运行作业时,书签逻辑如何调用 S3 API 来确定需要处理哪些文件?我知道它使用 ListObjects 或 ListObjectsV2...
1
回答
0
点赞数
47
检视次数
【以下的问题经过翻译处理】 AWS Glue 2.0 的 FindIncrementalMatches 函数中有一个字段的键为:**enforcedMatches**
它在 [AWS 文档 |...
1
回答
0
点赞数
37
检视次数