1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 你好,
如果你的目标是仅运行一些ELT,你最优化成本的选择将是使用Glue Python Shell作业,导入Snowflake Python 连接器。使用这种方法,您可以以1/16个DPU的成本执行针对Snowflake的SQL代码。
您还可以在Glue Spark ETL Job中导入Snowflake Python连接器,但您的作业将大多处于空闲状态,您需要为相同的操作支付过高的费用。
SnowFlake的Glue Studio连接器应类似于Snowflake Connector for Spark。该连接器的主要目标是在Snowflake和Spark之间创建快速的数据交换,因此,为了写入Snowflake,它首先将数据写入S3,然后使用Snowflake复制命令。它提供运行一些预处理和后处理SQL的能力,但仍需要将数据加载到中间表中。
如果您在Spark中进行一些转换,将DataFrame加载到Snowflake表中,然后需要运行您的Snowflake SQL,则带有后置动作的Glue Studio Connector for SnowFlake将是最佳选择。
Glue Studio SQL transform将使用SparkSQL实现您的代码,目前主要用于ETL而不是ELT。