标记有以下标签的问题: AWS Glue
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 正在运行的Glue作业,需要将S3中包含日期标记的一些源数据文件转换为不同格式(CSV到Parquet)。目标文件将放置在不同的S3存储桶中。测试时,Glue没有保留源文件名。S3目标文件中如何保留日期标记?
1
回答
0
点赞数
29
检视次数
如何使用CDK创建Athena视图lg...
【以下的问题经过翻译处理】 使用Athena控制台中的CREATE VIEW选项进行查询,该查询操作会在Glue数据库中创建一个视图。使用CDK如何完成?使用monocdk创建Athena视图的最简单方法是什么?
使用“CREATE OR REPLACE...
1
回答
0
点赞数
11
检视次数
【以下的问题经过翻译处理】 我的客户想要将深度嵌套的JSON对象展开。他们使用Glue Crawler分类器与$[\*](将数组元素向上提升一级,使得每个JSON记录都加载到自己的行中)。当运行了Crawler并查看结果时,发现结果仅看到一些“Array”类型而不是“Struct”类型。请问如何解决这个问题?
1
回答
0
点赞数
2
检视次数
如何在Glue Job 中调用存储过程lg...
【以下的问题经过翻译处理】 团队您好,
我希望在glue job结束时(在gluejob内部),调用我的存储过程,
能否在不使用py4j的情况下,从pyspark glue Job 连接 mySQL...
1
回答
0
点赞数
29
检视次数
【以下的问题经过翻译处理】 假设数据源的Schema会随时间变化,你如何:
情况1. 运行Job/查询时指定一个Schema版本? 我想指定一个表的版本X,因为我知道我正在查询的数据是在版本X时创建的。
情况2....
1
回答
0
点赞数
2
检视次数
如何读取S3中带有标题行的CSV文件?lg...
【以下的问题经过翻译处理】 有没有办法配置Glue可以读取CSV文件并忽略其中的标题行?我不知道如何实现这个功能。
我可能说的不是很清楚,下面是在其他一些类似工具中的实现:
Spark 中的...
1
回答
0
点赞数
12
检视次数
【以下的问题经过翻译处理】 IHAC正在为他们的数据湖进行底层设计。他们希望尽可能都使用AWS原生服务。他们对AWS上的ETL编排最佳实践有疑问。他们正在查看Step函数,但自2019年6月以来,Glue Workflow已经可用,他们想知道该使用哪种或组合使用。当然,他们正在寻找简单的方式。以下是他们的主要要求:
1. ETL编排-Step函数 vs. Glue Workflow
1....
1
回答
0
点赞数
17
检视次数
数据摄取应该使用DMS还是Glue?lg...
【以下的问题经过翻译处理】 客户正在AWS上建立一种物联网 — 大数据分析平台。
根据他们的设计,阶段1中,他们有一个本地SQL Server DW,将以近实时的方式发送数据到AWS。
一旦数据进入AWS,就会进行处理、分析和可视化等操作。
客户的问题如下:
1. 将这些数据以近实时的方式发送到AWS的最佳方法是什么:
* 使用DMS(CDC)并将数据存储在staging...
1
回答
0
点赞数
16
检视次数
【以下的问题经过翻译处理】 首先,Glue 作业出现错误 “failed to execute with exception Task allocated capacity exceeded limit.”(Service: AWSGlueJobExecutor; Status Code: 400; Error Code: InvalidInputException; Request ID:...
1
回答
0
点赞数
30
检视次数
【以下的问题经过翻译处理】 Athena表可以从拥有基于crawlers的模式的Glue表创建。
**是否可以使用Glue表的结构生成与Redshift兼容的`CREATE TABLE`语句吗?**
我在Athena中尝试了`SHOW CREATE TABLE encounter;`。我尝试将生成的`CREATE...
1
回答
0
点赞数
5
检视次数
【以下的问题经过翻译处理】 我们正在使用Step Functions作为ETL 流程的一部分。我们需要启动21个任务,每个任务需要1-3分钟,消耗5 DPUs。当尝试并行运行超过15个Glue Jobs时,Step Function会出现以下错误。我们使用arn:aws:states:::glue:startJobRun.sync...
1
回答
0
点赞数
12
检视次数
【以下的问题经过翻译处理】 应用场景如下:
我们有一个增量数据源,需要从中识别匹配的记录。为此,我们使用AWS Glue 2.0运行Find Matches。
这是我在初始源上运行FindMatches时,针对源生成以下结果。注意每条记录生成的match_id。
![Find Matches...
1
回答
0
点赞数
47
检视次数