为什么我的可视化ETL Glue作业输出模式不正确,除非我使用数据预览?

0

【以下的问题经过翻译处理】 目标是创建一个ETL作业,可以由我们组织中非技术用户进行修改和执行,这就是为什么我们坚持只用可视化而不是代码的原因。

问题是,节点似乎不会更新输出模式,除非我点击“数据预览”,然后“使用数据预览模式”,这看起来一点也不直观。这是个bug吗?

例如,假设我的数据源是包含A、B和C列的CSV文件的S3存储桶。然后我有一个第二个节点(节点2),名为“添加当前时间戳”。

节点2的输出模式如下: 键 数据类型 A 字符串 B 字符串 C 字符串

然后,如果我点击“预览数据”并使用数据预览模式,它就变成了: 键 数据类型 A 字符串 B 字符串 C 字符串 当前时间戳 时间戳

由于节点2的目的是添加当前时间戳列,所以我希望它可以在不使用数据预览的情况下添加到输出模式中。当您有超过2个节点并且必须在每个节点上进行预览时,这将变得非常耗时。

此外,在粘合剂4.0上,数据预览不起作用,因此在这种情况下我根本无法使用可视化编辑器。

有没有其他人遇到这个问题,并找到了除使用代码以外的解决方案?

谢谢!

profile picture
EXPERTE
gefragt vor 5 Monaten38 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 您好,

我了解到,尝试使用可视化转换(添加当前时间戳)基于时间戳属性创建新列并将其添加到现有模式时,问题在于我们需要使用数据预览选项和输出模式按钮(使用datapreviewschema)在运行时查看新列创建/添加到输出模式。

目前,这是服务的默认行为,我同意这似乎是一种限制,因为它很耗时,如果有多个节点,则需要为每个节点单独进行预览,而且不太直观。

感谢您提供有关服务的宝贵反馈。我已代表您向服务团队提出了一项功能请求。虽然我无法评论此功能可能何时发布,但要求您密切关注我们的What's New和博客以获取任何新功能公告。

[1] https://aws.amazon.com/new/ [2] https://aws.amazon.com/blogs/aws/

似乎还有另一种手动在不运行数据预览的情况下添加到输出模式的方法,即在输出模式选项卡上,您可以单击编辑,然后添加一项根键。检查它是否有助于您的用例,否则将其作为反馈提供给服务!

[截图](/ media / postImages / original / IMx8wOSP8kR-epHAWcFnexTg)

关于数据预览在glue 4.0上无法工作的问题,此功能目前正在管道中,应很快可用。我无法评论ETA,请继续关注我们的What's New和Blog页面以获取更新

谢谢!

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen